Spark 是 发 源 于 美国 
台 。Spark 当 下 已 成 为 Apache 基 金 会 的 顶级 开源 项 


为 什么 要 写 这 本 书 
大 数据 还 在 如 火 如 茶 地 发 

久 的 一 个 想法 。 由 于 学 习 和 工作 较为 紧张 ， 最 初 只 是 通过 几 篇 笔记 在 博客 中 分 享 
在 国外 Yahoo! 、 


策略 等 公司 纷纷 将 Spark 融 进 现 有 解决 方案 ， 并 加 入 Spark 阵 营 。Spark 在 工业 界 的 应 有 


随 着 Spark 技 术 在 国内 的 大 范围 落地 、Spark 中 国峰 会 的 召开 ， 及 各 地 meetup 的 火爆 举行 ， 
多 种 类 型 的 大 数据 分 析 作 业 : 批 处 理 、 各 种 机 器 学 习 、 流 式 计 
统 间 进行 代价 较 大 的 数据 转 储 ， 但 是 这 无 疑 会 增 力 


在 


A 


本 书 从 一 个 系统 化 的 视角 ， 秉 承 大 道 至 简 的 


本 书 特色 


本 书 是 国 


1 


2 
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年 之 前 ， 关 注 Spark 的 人 和 公司 不 多 ， 由 了 
Spark 书 籍 ， 很 多 Spark 初 学 者 和 开发 人 员 只 能 参考 网 络 上 零星 的 Spark 技 术 相关 博客 ， 


实战 部 分 不 但 给 出 编程 示例 ， 还 给 出 可 拓展 的 应 


剖析 BDAS 生 态 系统 的 主 


加 州 大 学 伯克利 分 校 AMPLab 的 大 数据 分 析 平 台 ， 


展 着 ， 突 然 之 间 ，Spark 就 火 了 。 还 记得 最 开始 接触 Spark 技 术 时 资料 


Intel、Amazon、Cloudera 等 公司 率先 应 用 并 推广 Spark 技 术 ， 在 国 


它 立足 于 内 存 计 算 ， 从 多 和 迭代 批量 处 理 出 发 ， 兼 顾 数 
， 拥 有 庞大 的 社区 支持 ， 技 术 也 逐渐 走向 成 熟 。 


居 仓 库 、 流 处 理 和 图 计算 等 多 种 计算 范式 ， 是 大 数据 系统 领域 的 全 栈 计 算 平 


. EF 


tog E XORUR $5. 


运 维 负担 。 


内 首 本 系统 讲解 Spark 编 程 实战 的 书籍 ， 涵 盖 Spark 技 术 的 方方面面 。 


对 Spark 的 架构 、 运 行 机 制 、 系 统 环境 搭建 、 测 试 和 调 优 进行 深入 讲 


场景 。 


组 件 的 原理 和 应 F 


， 让 读者 充分 了 解 Spar 


本 书 的 理论 和 实战 安排 得 当 ， 突 破 传统 讲解 方式 ， 使 读者 读 而 不 厌 。 


、SQL 查 询 等 。 在 Spark 出 现 前 ， 要 在 一 个 平台 内 同时 完成 以 上 数 科 


E 导 思想 ， 介 绍 Spark 中 最 值得 关注 的 内 容 ， 讲 解 Spark 部 署 、 开 发 实战 ， 并 结合 Spark 的 运行 机 制 及 拓 


匮乏 ， 只 有 官方 文档 和 源码 可 以 作为 研究 学 习 的 资料 。 写 一 本 Spark 系 统 方面 的 技术 书籍 ， 是 我 持续 了 很 
自己 学 习 Spark 过 程 的 点 滴 ， 但 是 随 着 时 间 的 推移 ， 笔 记 不 断 增 多 ， 最 终 还 是 打算 将 笔记 整理 成 书 ， 也 算是 一 个 总 结 和 分 


内 淘宝 、 腾 讯 、 网 易 、 星 环 等 公司 敢 为 人 先 ， 并 乐于 分 享 。 在 随后 的 发 展 中 ，IBM、MapR、Hortonworks、 微 


源 软件 Spark 也 因此 水 涨 船 高 。 随 着 大 数据 相关 技术 和 产业 的 逐渐 成 熟 ， 公 司 生产 环境 往往 需要 同时 进行 
大 数据 分 析 任务 ， 就 不 得 不 与 多 套 独 立 的 系统 打交道 ， 这 需要 系 


坚 ， 以 期 让 读者 知 其 所 以 然 。 讲 述 Spark 最 核心 的 技术 内 容 ， 以 激发 读者 的 联想 ， 进 而 衍化 至 繁 。 


F 它 包含 的 软件 种 类 多 ， 版 本 升级 较 快 ， 技 术 较 为 新 颖 ， 初 学 者 难以 在 有 限 的 时 间 内 快速 掌握 Spark 蕴 合 的 价值 。 同 时 国内 缺少 一 本 实践 与 理论 相 结 合 的 
己 一 点 一 滴 地 阅读 源码 和 文档 ， 缓 慢 地 学 习 Spark。 本 书 也 正 是 为 了 解决 上 面 的 问题 而 编写 的 。 


展 ， 帮 读者 开启 Spark 技 术 之 旅 。 


本 书 中 一 些 讲解 实 操 部 署 和 示例 的 章节 ， 比 较 适 合作 为 运 维 和 开发 人 员工 作 时 手边 的 书 ; 运行 机 制 深入 分 析 方 面 的 章节 ， 比 较 适 合 架构 师 和 Spark 研 究 人 员 ， 可 帮 他 们 拓展 解决 问题 的 思路 。 


读者 对 象 
* Spark 初学 者 
“ Spatk 二 次 开发 人 员 
* Spatk 应 用 开发 人 员 
“ Spatk 运 维 工程 师 


“ 开源 软件 爱好 者 


“ 其 他 对 大 数据 技术 感 兴趣 的 人 员 


如 何 阅读 本 书 


本 书 分 为 两 大 部 分 ， 共 计 


从 Spark 概 念 


详细 介绍 了 Spar 


出 发 ,介绍 了 Spark 的 来 龙 去 脉 ,阐述 Spark 生 态 系 统 全 莉 。 


详细 介绍 了 Spar 


详细 介绍 了 S| 


从 实际 出 发 ， 


r 


第 6 章 


par 


El 


#4 


第 7 


第 8 章 ”围绕 Spark 生 态 系统 ， 


第 9 章 HAMATA 


如 果 您 是 一 位 有 着 一 定 经 验 的 资深 开发 人 员 ， 能 够 理解 Spark 的 相关 基础 知识 和 使 


勘误 和 支持 


0 何 对 Spark 进 行 性 能 调 优 ， 以 及 调 优 方法 的 原理 。 


的 计算 模型 ，RDD 的 概念 与 原理 ，RDD 上 的 函数 算 子 的 原理 和 使 有 
执行 机 制 、Spark 调 度 与 任务 分 配 、Spark MO 机 制 、Spark 通 信 模 块 、 容 错 村 


介绍 了 如 何在 Intelij、Eclipse 中 配置 开发 环境 ， 如 何 使 有 


介绍 了 Spark 之 上 的 SQL on Spark, Spark Streaming, GraphX, MLI 


在 Linux 集 群 和 Windows 上 如 何 进 行 部 署 和 安装 。 


SBT 构 建 项 目 ， 如 何 使 


， 广 播 和 累加 变量 。 


ib 的 原理 和 应 用 。 


展开 介绍 了 主流 的 大 数据 Benchmark 的 原理 ， 并 对 比 了 Benchmark 优 和 劣势， 指导 Spark 系 统 性 能 测试 和 性 能 问题 诊断 。 


几 制 、Shuffle 机 制 ， 并 对 Spark 机 制 原理 进行 了 深入 剖析 。 


由 浅 入 深 ,详细 介绍 了 Spark 的 编程 案例 ， 通 过 WordCount、Top K 到 倾斜 连接 等 ， 以 帮助 读者 快速 掌握 开发 Spark 程 序 的 技巧 。 


SparkSshell 进 行 交 互 式 分 析 、 远 程 调试 和 编译 Spark 源 码 ， 以 及 如 何 构建 Spark 源 码 阅读 环 


技巧 ， 那 么 可 以 直接 阅读 4 


" 


。 如 果 你 是 一 名 初学 者 ， 请 一 定 从 第 1 章 的 
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础 知识 开始 学 起 。 


由 于 笔者 的 水 平 有 限 ， 编 写 时 间 仓促 ， 书 中 难免 会 出 现 一 些 错误 或 者 不 准确 的 地 方 ， 居 请 读者 批评 指正 。 如 果 您 有 更 多 的 宝贵 意见 ， 欢 迎 访问 我 的 个 人 Github 上 的 Spark 大 数据 处 理 专 版 : 
https//github.com/YanjieGao/SparklnAction， 您 可 以 将 书 中 的 错误 提交 PR 或 者 进行 评论 ， 我 会 尽量 在 线 上 为 读者 提供 最 满意 的 解答 。 您 也 可 以 通过 微 博 @ 高 彦 杰 gyj、 微 信 公 共 号 @Sspark 大 数据 、 博 
客 http:/Wblog.csdn.net/gaoyanjie55 或 者 邮箱 gaoyanjie55@163.com 联 系 到 我 ， 期 待 能 够 得 到 读者 朋友 们 的 真挚 反馈 ， 在 技术 之 路 上 互 勉 共 进 。 
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第 1 章 Spark 简 介 


本 章 主 要 介绍 Spark 大 数据 计算 框架 、 架 构 、 计 算 模型 和 数据 管理 策略 及 Spark 在 工业 界 的 应 用 。 围 绕 Spark 的 BDAS 项 目 及 其 子 项 目 进行 了 简要 介绍 。 目 前 ，Spark 生 态 系统 已 经 发 展 成 为 一 个 包含 多 个 
子 项 目的 集合 ， 其 中 包含 SparkSQL、Spark Streaming、GraphX、MLlib 等 子 项 目 ， 本 章 只 进行 简要 介绍 ， 后 续 章 节 再 详细 阐述 。 


1.1 _ Spark 是 什么 


Spark 是 基于 内 存 计算 的 大 数据 并 行 计算 框架 。Spark 基 于 内 存 计算 ,提高 了 在 大 数据 环境 下 数据 处 理 的 实时 性 ， 同 时 保证 了 高 容错 性 和 高 可 伸缩 性 ， 人 允许 用 户 将 Spark 部 署 在 大 量 廉价 硬件 之 上 ， 形 成 
集群 。 


Spark 于 2009 年 诞生 于 加 州 大 学 伯克利 分 校 AMPLab。 目 前 ， 已 经 成 为 Apache 软 件 基金 会 旗下 的 项 级 开源 项 目 。 下 面 是 Spark 的 发 展 历程 。 


1.Spark 的 历史 与 发 展 


- 2009 年 : Spatk 诞 生 于 AMPLab。 

: 2010 年 : 开源 。 

: 2013 年 6 月 : Apache 敌 化 器 项 目 。 

“ 2014 年 2 月 : Apache 顶 级 项 目 。 

“ 2014 年 2 月 : 大 数据 公司 Cloudera 宣 称 加 大 Spatk 框 架 的 投入 来 取代 MapReduce。 

“ 2014 年 4 月 : 大 数据 公司 MapR 投 入 Spatk 阵 营 ，Apache Mahout 放 弃 MapReduce， 将 使 用 Spark 作 为 计算 引擎 。 
2014 年 5 月 : Pivotal Hadoop 集 成 Spark 全 栈 。 

: 2014 年 5 月 30 日 : Spark 1.0.0 发 布 。 


“ 2014 年 6 月 : Spark 2014 峰 会 在 旧金山 召开 。 


- 2014 年 7 月 : Hive on Spatk 项 目 启动 。 


目前 AMPLab 和 Databricks 负 责 整 个 项 目的 开发 维护 ， 很 多 公司 ， 如 Yahoo! 、lntel 等 参与 到 Spark 的 开发 中 ， 同 时 很 多 开源 爱好 者 积极 参与 Spark 的 更 新 与 维护 。 


AMPLab 开 发 以 Spark 为 核心 的 BDAS 时 提出 的 目标 是 : one stack to rule them all， 也 就 是 说 在 一 套 软件 栈 内 完成 各 种 大 数据 分 析 任 务 。 相 对 于 MapReduce 上 的 批量 计算 、 人 返 代 型 计算 以 及 基于 Hive 
的 SQL 查询 ，Spark 可 以 带 来 上 百倍 的 性 能 提升 。 目 前 Spark 的 生态 系统 日 趋 完善 ，Spark SQL 的 发 布 、Hive on Spark 项 目的 启动 以 及 大 量 大 数据 公司 对 Spark 全 栈 的 支持 ， 让 Spark 的 数据 分 析 范 式 更 加 丰 


= 
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2.Spark 之 于 Hadoop 


更 准确 地 说 ，Spark 是 一 个 计算 框架 ,而 Hadoop 中 包含 计算 框架 MapReduce 和 分 布 式 文件 系统 HDFS，Hadoop 更 广泛 地 说 还 包括 在 其 生态 系统 上 的 其 他 系统 ， 如 Hbase、Hive 等 。 


Spark 是 MapReduce 的 蔡 代 方案 ， 而 且 兼 容 HDFS、Hive 等 分 布 式 存储 层 ， 可 融入 Hadoop 的 生态 系统 ， 以 弥补 缺失 MapReduce 的 不 足 。 


Spark 相 比 Hadoop MapReduce 的 优势 [0] 如 下 。 


(1) 中 间 结 果 输 出 


基于 MapReduce 的 计算 引擎 通常 会 将 中 间 结 果 输 出 到 磁盘 上 ， 进 行 存储 和 容错 。 出 于 任务 管道 承接 的 考虑 ， 当 一 些 查询 翻译 到 MapReduce 任 务 时 ， 往 往 会 产生 多 个 Stage， 而 这 些 串 联 的 stage 又 依 
赖 于 底层 文件 系统 (如 HDFS) 来 存储 每 一 个 stage 的 输出 结果 。 


Spark 将 执行 模型 抽象 为 通用 的 有 向 无 环 


D 


执行 计划 (DAG) ， 这 可 以 将 多 Stage 的 任务 串联 或 者 并 行 执行 ， 而 无 须 将 Stage 中 间 结 果 输 出 到 HDFS 中 。 类 似 的 引擎 包括 Dryad、Tez。 


(2) 数据 格式 和 内 存 布 


an 


由 于 MapReduce Schema on Read 处 理 方式 会 引起 较 大 的 处 理 开销 。Spark 抽 象 出 分 布 式 内 存 存 储 结构 弹性 分 布 式 数据 集 RDD， 进 行 数据 的 存储 。RDD 能 支持 粗 粒度 写 操作 ， 但 对 于 读 取 操作 ，RDD 
可 以 精确 到 每 条 记录 ， 这 使 得 RDD 可 以 用 来 作为 分 布 式 索引 。Spark 的 特性 是 能 够 控制 数据 在 不 同 节点 上 的 分 区 ， 用 户 可 以 自 定义 分 区 策略 ， 如 Hash 分 区 等 。Shark 和 Spark SQL 在 Spark 的 基础 之 上 实现 了 
列 存储 和 列 存 储 压 缩 。 


(3) 执行 策略 


MapReduce 在 数据 Shuffle 之 前 花费 了 大 量 的 时 间 来 排序 ，Spark 则 可 减轻 上 述 问题 带 来 的 开销 。 因 为 Spark 任 务 在 shuffle 中 不 是 所 有 情景 都 需要 排序 ， 所 以 支持 基于 Hash 的 分 布 式 聚合 ， 调 度 中 采 上 
更 为 通用 的 任务 执行 计划 图 (DAG) ， 每 一 轮 次 的 输出 结果 在 内 存 缓存 。 


(4) 任务 调度 的 开销 


传统 的 MapReduce 系 统 ， 如 Hadoop， 是 为 了 运行 长 达 数 小 时 的 批量 作业 而 设计 的 ， 在 某 些 极端 情况 下 ， 提 交 一 个 任务 的 延迟 非常 高 。 
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Spark 采 件 驱动 的 类 库 AKKA 来 启动 任务 ， 通 过 线程 池 复 用 线程 来 避免 进程 或 线程 启动 和 切换 开销 。 


3.Spark 能 带 来 什么 


Spark 的 一 站 式 解决 方案 有 很 多 的 优势 ， 具 体 如 下 。 


=à 


(1) 打造 全 栈 多 计算 范式 的 高 效 数据 流水 线 


Spark 支 持 复杂 查询 。 在 简单 的 “map” 及 “reduce” 操 作 之 外 ，Spark 还 支持 SQL 查询 、 流 式 计算 、 机 器 学 习 和 


算法 。 同 时 ， 用 户 可 以 在 同一 个 工作 流 中 无 颖 搭配 这 些 计算 范式 。 
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(2) 轻 量 级 快速 处 理 


Spark 1.0 核 心 代码 只 有 4 万 行 。 这 是 由 于 Scala 语 言 的 简洁 和 丰富 的 表达 力 ， 以 及 Spark 充 分 利用 和 集成 Hadoop 等 其 他 第 三 方 组 件 ， 同 时 着 眼 于 大 数据 处 理 ， 数 据 处 理 速 度 是 至 关 重要 的 ，Spark 通 过 将 
中 间 结 果 缓 存在 内 存 减少 磁盘 /O 来 达到 性 能 的 提升 。 


(3) 易于 使 用 ，Spark 支 持 多 语言 


Spark 支 持 通 过 Scala、Java 及 Python 编 写 程序 ， 这 人 允许 开发 者 在 自己 熟悉 的 语言 环境 下 进行 工作 。 它 自 带 了 80 多 个 算 子 ， 同 时 允许 在 Shell 中 进行 交互 式 计算 。 用 户 可 以 利用 Spark 像 书写 单机 程序 一 样 
书写 分 布 式 程序 ， 轻 松 利 用 Spark 搭 建 大 数据 内 存 计算 平台 并 充分 利用 内 存 计算 ， 实 现 海量 数据 的 实时 处 理 。 


(4) 与 HDFS 等 存储 层 兼 容 


Spark 可 以 独立 运行 ， 除 了 可 以 运行 在 当下 的 YARN 等 集群 管理 系统 之 外 ， 它 还 可 以 读 取 已 有 的 任何 Hadoop 数 据 。 这 是 个 非常 大 的 优势 ， 它 可 以 运行 在 任何 Hadoop 数 据 源 上 ， 如 Hive、HBase、 
HDFSs 等 。 这 个 特性 让 用 户 可 以 轻易 迁移 已 有 的 持久 化 层 数据 。 


(5) 社区 活跃 度 高 


Spark 起 源 于 2009 年 ， 当 下 已 有 超过 50 个 机 构 、260 个 工程 师 贡献 过 代码 。 开 源 系 统 的 发 展 不 应 只 看 一 时 之 快 ， 更 重要 的 是 支持 一 个 活跃 的 社区 和 强大 的 生态 系统 。 


可 


时 我 们 也 应 该 看 到 Spark 并 不 是 完美 的 ，RDD 模 型 适合 的 是 粗 粒 度 的 全 局 数据 并 行 计算 。 不 适合 细 粒 度 的 、 需 要 异步 更 新 的 计算 。 对 于 一 些 计算 需求 ， 如 果 要 针对 特定 工作 负载 达到 最 优 性 能 ， 还 是 
需要 使 用 一 些 其 他 的 大 数据 系统 。 例 如 ， 图 计算 领域 的 GraphLab 在 特定 计算 负载 性 能 上 优 于 GraphX， 流 计算 中 的 storm 在 实时 性 要 求 很 高 的 场合 要 比 Spark Streaming 更 胜 一 筹 。 


随 着 Spark 发 展 势头 日 趋 迅猛 ， 它 已 被 广泛 应 用 于 Yahoo! 、Twitter、 阿 里 巴巴 、 百 度 、 网 易 、 英 特 尔 等 各 大 公司 的 生产 环境 中 。 


[1] 参见 论文 : Reynold Shi Xin, Joshua Rosen, Matei Zaharia, Michael Franklin, Scott Shenker, Ion Stoica Shark:SQL and Rich Analytics at Scale o 


1.2 _ Spark 生态 系统 BDAS 


目前 ，Spark 已 经 发 展 成 为 包含 众多 子 项 目的 大 数据 计算 平台 。 伯 克利 将 Spark 的 整个 生态 系统 称 为 伯克利 数据 分 析 栈 (BDAS) 。 其 核心 框架 是 Spark， 同 时 BDAS 涵 盖 支 持 结构 化 数据 SQL 查询 与 分 析 
的 查询 引擎 Spark SQL 和 Shark， 提 供 机 器 学 习 功 能 的 系统 MLbase 及 底层 的 分 布 式 机 器 学 习 库 MLlib、 并 行 图 计算 框架 GraphX、 流 计算 框架 Spark Streaming、 采 样 近似 计算 查询 引擎 BlinkDB、 内 存 分 布 
式 文件 系统 Tachyon、 资 源 管理 框架 Mesos 等 子 项 目 。 这 些 子 项 目 在 Spark 上 层 提供 了 更 高 层 、 更 丰富 的 计算 范式 。 


Tr 


图 1-1 为 BDAS 的 项 目 结构 图 。 


BlinkDB 
(SQL w、 误 差 范围 、 啊 应 时 间 ) 


MLbase 
(界面 友好 ， 


Graphx 


(图 谱 计算 ) ME 


机 大学 习 ) 


HDFS (Hadoop Distributed File System, Hadoop 分 布 式 文件 系统 ) 


LESE [.] 正在 开发 BE 相关 的 BDAS 之 外 的 系统 


图 1-1 伯克利 数据 分 析 栈 (BDAS) 项 目 结构 图 


下 面 对 BDAS 的 各 个 子 项 目 进行 更 详细 的 介绍 。 


(1) Spark 


Spark 是 整个 BDAS 的 核心 组 件 ， 是 一 个 大 数据 分 布 式 编程 框架 ,不仅 实现 了 MapReduce 的 算 子 map 函 数 和 reduce 函 数 及 计算 模型 ， 还 提供 更 为 丰富 的 算 子 ， 如 filter、join、groupByKey 等 。Spark 
将 分 布 式 数据 抽象 为 弹性 分 布 式 数据 集 (RDD) ， 实 现 了 应 用 任务 调度 、RPC、 序 列 化 和 压缩 ， 并 为 运行 在 其 上 的 上 层 组 件 提供 API。 其 底层 采用 Scala 这 种 函数 式 语言 书写 而 成 ， 并 且 所 提供 的 API 深 度 借 


鉴 Scal 


图 


a 函数 式 的 编程 思想 ， 提 供与 Scala 类 似 的 编程 接口 。 


1-2 为 Spark 的 处 理 流程 (主要 对 象 为 RDD) 。 


图 1-2 Spa 水 的 任务 处 理 流程 图 


Spark 将 数据 在 分 布 式 环境 下 分 区 ， 然 后 将 作业 转化 为 有 向 无 环 


(DAG) ， 并 分 阶段 进行 DAG 的 调度 和 任务 的 分 布 式 并 行 处 理 。 


D 


(2) Shark 


Shark 是 构建 在 Spark 和 Hive 基 础 之 上 的 数据 仓库 。 目 前 ，Shark 已 经 完成 学 术 使 命 ， 终 止 开 发 ， 但 其 架构 和 原理 仍 具有 借鉴 意义 。 它 提供 了 能 够 查询 Hive 中 所 存储 数据 的 一 套 SQL 接 口 ， 兼 容 现 有 的 
Hive QL 语 法 。 这 样 ， 熟 悉 Hive QL 或 者 SQL 的 用 户 可 以 基于 Shark 进 行 快速 的 Ad-Hoc、Reporting 等 类 型 的 SQL 查 询 。Shark 底 层 复 用 Hive 的 解析 器 、 优 化 器 以 及 元 数据 存储 和 序列 化 接口 。Shark 会 将 Hive 
QL 编译 转化 为 一 组 Spark 任 务 ， 进 行 分 布 式 运 算 。 


(3) Spark SQL 


Spark SQL 提 供 在 大 数据 上 的 SQL 查 询 功 能 ， 类 似 于 Shark 在 整个 生态 系统 的 角色 ， 它 们 可 以 统称 为 SQL on Spark。 之 前 ，Shark 的 查询 编译 和 优化 器 依赖 于 Hive， 使 得 Shark 不 得 不 维护 一 套 Hive 分 
支 ， 而 Spark SQL 使 用 Catalyst 做 查询 解析 和 优化 器 ， 并 在 底层 使 用 Spark 作 为 执行 引擎 实现 SQL 的 Operator。 用 户 可 以 在 Spark 上 直接 书写 SQL， 相 当 于 为 Spark 扩 充 了 一 套 SQL 算 子 ， 这 无 疑 更 加 丰富 了 
Spark 的 算 子 和 功能 ， 同 时 Spark SQL 不 断 兼 容 不 同 的 持久 化 存储 (如 HDFS、Hive 等 ) ， 为 其 发 展 莫 定 广阔 的 空间 。 


(4) Spark Streaming 


Spark Streaming 通 过 将 流 数据 按 指定 时 间 片 票 积 为 RDD， 然 后 将 每 个 RDD 进 行 批 处 理 ， 进 而 实现 大 规模 的 流 数据 处 理 。 其 吞吐 量 能 够 超越 现 有 主流 流 处 理 框架 Storm， 并 提供 丰富 的 API 用 于 流 数据 计 
算 。 


(5) GraphX 


D 


GraphX 基 于 BSP 模 型 ， 在 Spark 之 上 封装 类 似 Pregel 的 接口 ， 进 行 大 规模 同步 全 局 的 图 计算 ， 尤 其 是 当 用 户 进行 多 轮 迭 代 时 ， 基 于 Spark 内 存 计算 的 优势 尤为 明显 。 


(6) Tachyon 


Tachyon 是 一 个 分 布 式 内 存 文 件 系 统 ， 可 以 理解 为 内 存 中 的 HDFS。 为 了 提供 更 高 的 性 能 ， 将 数据 存储 剥离 Java Heap。 用 户 可 以 基于 Tachyon 实 现 RDD 或 者 文件 的 跨 应 用 共享 ， 并 提供 高 容错 机 制 ， 保 
证 数据 的 可 靠 性 。 


(7) Mesos 


Mesos 是 一 个 资源 管理 框架 [0 和， 提供 类 似 于 YARN 的 功能 。 用 户 可 以 在 其 中 插件 式 地 运行 Spark、MapReduce、Tez 等 计算 框架 的 任务 。Mesos 会 对 资源 和 任务 进行 隔离 ， 并 实现 高 效 的 资源 任务 调 
度 。 


(8) BlinkDB 


BlinkDB 是 一 个 用 于 在 海量 数据 上 进行 交互 式 SQL 的 近似 查询 引擎 。 它 允许 用 户 通过 在 查询 准确 性 和 查询 响应 时 间 之 间 做 出 权衡 ， 完 成 近似 查询 。 其 数据 的 精度 被 控制 在 允许 的 误差 范围 内 。 为 了 达到 这 
个 目标 ，BlinkDB 的 核心 思想 是 : 通过 一 个 自 适 应 优化 框架 ， 随 着 时 间 的 推移 ， 从 原始 数据 建立 并 维护 一 组 多 维 样本 ; 通过 一 个 动态 样本 选择 策略 ， 选 择 一 个 适当 大 小 的 示例 ， 然 后 基于 查询 的 准确 性 和 响 
应 时 间 满 足 用 户 查询 需求 。 


[1] Spark 自 带 的 资源 管理 框架 是 Standalone。 


1.33 _ Spark 架构 


从 上 文 介绍 可 以 看 出 ，Spark 是 整个 BDAS 的 核心 。 生 态 系统 中 的 各 个 组 件 通过 Spark 来 实现 对 分 布 式 并 行 任务 处 理 的 程序 支持 。 


1.Spark 的 代码 结构 


图 1-3 展 示 了 Spark-1.0 的 代码 结构 和 代码 量 (不 包含 Test 和 Sample 代 码 ) ， 读 者 可 以 通过 代码 架构 对 Spark 的 整体 组 件 有 一 个 初步 了 解 ， 正 是 这 些 代码 模块 构成 了 Spark 架 构 中 的 各 个 组 件 ， 同 时 读者 
可 以 通过 代码 模块 的 脉络 阅读 与 剖析 源码 ， 这 对 于 了 解 Spark 的 架构 和 实现 细节 都 是 很 有 帮助 的 。 


下 面 对 图 1-3 中 的 各 模块 进行 简要 介绍 。 


scheduler: 文件 夹 中 含有 负责 整体 的 Spark 应 用 、 任 务 调度 的 代码 。 


broadcast: 含有 Broadcast (广播 变量 ) 的 实现 代码 ，APl 中 是 Java 和 Python API 的 实现 。 


Spark Core: 42. 000 LOC bagel: 400 


mllib: 7400 


Sql: 12000 


interpreter: 


x 
3 


图 1-3 Spark 代码 结构 和 代码 量 


deploy: 含有 Spark 部 署 与 启动 运行 的 代码 。 


common: 不 是 一 个 文件 夹 ， 而 是 代表 Spark 通 用 的 类 和 逮 辑 实现 ， 有 5000 行 代码 。 


metrics: 是 运行 时 状态 监控 逻辑 代码 ，Executor 中 含有 Worker 节 点 负责 计算 的 逻辑 代码 。 
partial: 含有 近似 评估 代码 。 

network: 含有 集群 通信 模块 代码 。 

serializer: 含有 序列 化 模块 的 代码 。 


storage: 含有 存储 模块 的 代码 。 


ui: 含有 监控 界面 的 代码 逻辑 。 其 他 的 代码 模块 分 别 是 对 Spark 生 态 系统 中 其 他 组 件 的 实现 。 


streaming: 是 Spark Streaming 的 实现 代码 。 
YARN: 是 Spark on YARN 的 部 分 实现 代码 。 
graphx: 含有 GraphX 实 现代 码 。 

interpreter: 代码 交互 式 Shell 的 代码 量 为 3300 行 。 
mllib: 代表 MLlib 算 法 实现 的 代码 量 。 
sql 代 表 Spark SQL 的 代码 量 。 


2.Spark 的 架构 


Spark 架 构 采用 了 分 布 式 计算 中 的 Master-Slave 模 型 。Master 是 对 应 集群 中 的 含有 Master 进 程 的 节点 ，Slave 是 集群 中 含有 Worker 进 程 的 节点 。Master 作 为 整个 集群 的 控制 器 ， 负 责 整个 集群 的 正常 
运行 ; Worker 相 当 于 是 计算 节点 ， 接 收 主 节点 命令 与 进行 状态 汇报 ; Executor 负 责任 务 的 执行 ，Client 作 为 用 户 的 客户 端 负 责 提交 应 用 ，Driver 负 责 控 制 一 个 应 用 的 执行 ， 如 图 1-4 所 示 。 
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图 1-4 Spark 架构 图 


Spark 集 群 部 署 后 ， 需 要 在 主 节点 和 从 节点 分 别 启动 Master 进 程 和 Worker 进 程 ， 对 整个 集群 进行 控制 。 在 一 个 Spark 应 用 的 执行 过 程 中 ，Driver 和 Weorker 是 两 个 重要 角色 。Driver 程 序 是 应 用 逻辑 执行 
的 起 点 ， 负 责 作 业 的 调度 ， 即 Task 任 务 的 分 发 ， 而 多 个 Worker 用 来 管理 计算 节点 和 创建 Executor 并 行 处 理 任 务 。 在 执行 阶段 ，Driver 会 将 Task 和 Task 所 依赖 的 file 和 jar 序 列 化 后 传递 给 对 应 的 Worker 机 
器 ， 同 时 Executor 对 相应 数据 分 区 的 任务 进行 处 理 。 


下 面 详细 介绍 Spark 的 架构 中 的 基本 组 件 。 
- ClusterManager: 在 Standalone 模 式 中 即 为 Master ( 主 节 点 ) ， 控 制 整个 集群 ， 监 控 Worker。 在 YARN 模 式 中 为 资源 管理 器 。 
Worker: 从 节点 ， 负 责 控制 计算 节点 ， 启 动 Executor 或 Driver。 在 YARN 模 式 中 为 NodeManager， 负 责 计算 节点 的 控制 。 
< Driver: 运行 Application 的 main () 函数 并 创建 SpatkContext。 
“ Executor: 执行 器 ， 在 worker node 上 执行 任务 的 组 件 、 用 于 启动 线程 池 运行 任务 。 每 个 Application 拥 有 独立 的 一 组 Executors。 
* SpatkContext: 整个 应 用 的 上 下 文 ， 控 制 应 用 的 生命 周期 。 
“RDD: Spatk 的 基本 计算 单元 ， 一 组 RDD 可 形成 执行 的 有 向 无 环 图 RDD Graph. 


: DAG Scheduler: 根据 作业 (Job) 构建 基于 Stage 的 DAG， 并 提交 Stage 给 TaskScheduler。 


* TaskScheduler: 将 任务 (Task) 分 发 给 Executot 执 行 。 


“ SparkEnv: 线程 级 别 的 上 下 文 ， 存 储 运 行 时 的 重要 组 件 的 引用 。 


SparkEnv 内 创建 并 包含 如 下 一 些 重要 组 件 的 引用 。 


: MapOutPutTracker: 负责 Shuffle 元 信息 的 存储 。 
BroadcastManager: 负责 广播 变量 的 控制 与 元 信息 的 存储 。 
` BlockManager: 负责 存储 管理 、 创 建 和 查找 块 。 

' MetricsSystem: 监控 运行 时 性 能 指标 信息 。 


“ SparkConf: 负责 存储 配置 信息 。 


Spark 的 整体 流程 为 : Client 提 交 应 用 ，Master 找 到 一 个 Worker 启 动 Driver，Driver 向 Master 或 者 资源 管理 器 申请 资源 ， 之 后 将 应 用 转化 为 RDD Graph， 再 由 DAGScheduler 将 RDD Graph 转化 为 
Stage 的 有 向 无 环 图 提交 给 Taskscheduler， 由 TaskScheduler 提 交 任 务 给 Executor 执 行 。 在 任务 执行 的 过 程 中 ， 其 他 组 件 协同 工作 ， 确 保 整个 应 用 顺利 执行 。 


3.Spark 运 行 逻 辑 


如 图 1-5 所 示 ， 在 Spark 应 用 中 ， 整 个 执行 流程 在 逻辑 上 会 形成 有 向 无 环 图 (DAG) 。Action 算 子 触发 之 后 ， 将 所 有 累积 的 算 子 形成 一 个 有 向 无 环 图 ， 然 后 由 调度 器 调度 该 图 上 的 任务 进行 运算 。Spark 
的 调度 方式 与 MapReduce 有 所 不 同 。Spark 根 据 RDD 之 间 不 同 的 依赖 关系 切 分 形成 不 同 的 阶段 (Stage) ， 一 个 阶段 包含 一 系列 函数 执行 流水 线 。 图 中 的 A、B、C、D、E、F 分 别 代表 不 同 的 RDD，RDD 内 
的 方 框 代表 分 区 。 数 据 从 HDFS 输 入 Spark， 形 成 RDD A 和 RDD C, RDD C 上 执行 map 操 作 ， 转 换 为 RDD D, RDD B 和 RDD E 执 行 join 操作 ， 转 换 为 F， 而 在 B 和 E 连 接 转 化 为 F 的 过 程 中 又 会 执行 Shuffle， 最 
后 RDD F 通 过 函数 saveAsSequenceFile 输 出 并 保存 到 HDFS 中 。 
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图 1-5 ”Spatk 执 行 有 向 无 环 


14 _ Spark 分 布 式 架构 与 单机 多 核 架 构 的 异同 


我 们 通常 所 说 的 分 布 式 系统 主要 指 的 是 分 布 式 软件 系统 ， 它 是 在 通信 网 络 互 连 的 多 处 理 机 的 架构 上 执行 任务 的 软件 系统 ， 包 括 分 布 式 操作 系统 、 分 布 式 程序 设计 语言 、 分 布 式 文件 系统 和 分 布 式 数据 库 
系统 等 。Spark 是 分 布 式 软件 系统 中 的 分 布 式 计算 框架 ， 基 于 Spark 可 以 编写 分 布 式 计算 程序 和 软件 。 为 了 整体 宏观 把 握 和 理解 分 布 式 系统 ， 可 以 将 一 个 集群 视 为 一 台 计 算 机 。 分 布 式 计算 框架 的 最 终 目的 是 
方便 用 户 编程 ， 最 后 达到 像 原来 编写 单机 程序 一 样 编写 分 布 式 程序 。 但 是 分 布 式 编程 与 编写 单机 程序 还 是 存在 不 同 点 的 。 由 于 分 布 式 架构 和 单机 的 架构 有 所 不 同 ， 存 在 内 存 和 磁盘 的 共享 问题 ， 这 也 是 我 们 
在 书写 和 优化 程序 的 过 程 中 需要 注意 的 地 方 。 分 布 式 架构 与 单机 架构 的 对 比如 图 1-6 所 示 。 
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图 1-6 分 布 式 体系 结构 与 单机 体系 结构 的 对 比 


1) 在 单机 多 核 环境 下 ， 多 CPU 共享 内 存 和 磁盘 。 当 系统 所 需 的 计算 和 存储 资源 不 够 ， 


需要 扩展 CPU 和 存储 时 ， 单 机 多 核 系统 显得 力不从心 。 


指 的 是 处 理 单元 而 非 处 理 器 。 每 个 单元 内 的 CPU 都 有 


2) 大 规模 分 布 式 并 行 处 理 系统 是 由 许多 松 耘 合 的 处 理 单元 组 成 的 ， 要 注意 的 是 ， 这 呈 


点 在 于 不 共享 资源 。 在 不 共享 资源 (Share Nothing) 的 分 布 式 架构 下 ， 节 点 可 以 实现 无 限 扩展 ， 即 计算 能 力 和 存储 的 扩展 性 可 以 成 倍增 长 。 


在 分 布 式 运算 下 ， 数 据 尽量 本 地 运算 ， 减 少 网 络 VO 开 销 。 由 于 大 规模 分 布 式 系统 要 在 不 同 处 理 单元 之 间 传 送信 息 ， 在 网 络 传输 少时 ， 


Memory 


CPU Core3 


己 私 有 的 资源 ， 如 总 线 、 内 存 、 硬 盘 等 。 这 种 结构 最 大 的 特 


系统 可 以 充分 发 挥 资源 的 优势 ， 达 到 | 高 效率 。 也 就 是 说 ， 如 果 操 作 


因此 ， 分 布 式 系统 在 决策 支持 (DSS) 和 数据 挖掘 (Data Mining) 方面 具有 优势 。 


相互 之 间 没 有 什么 关系 ， 处 理 单元 之 间 需 要 进行 的 通信 比较 少 ， 则 采用 分 布 式 系统 更 好 。 


Spark 正 是 基于 大 规模 分 布 式 并 行 架构 开发 ， 因 此 能 够 按 需 进行 计算 能 力 与 存储 能 力 的 扩 


1.5 ”Spark 的 企业 级 应 用 


随 着 企业 数据 量 的 增长 ， 对 大 数据 的 处 理 和 分 析 已 经 成 为 企业 的 迫切 需求 。Spark 作 为 Hadoop 的 替代 者 ， 引 起 学 术 界 和 工业 界 的 普遍 兴趣 ， 大 量 应 F 


1 


RE, EURA SEU S37, RESE, iL. 


户 放心 地 进行 大 数据 分 析 。 


在 学 术 界 ，Spark 得 到 各 院 校 的 关注 。Spark 源 自学 术 界 ， 最 初 是 由 加 州 大 学 伯克利 分 校 的 AMPLab 设 计 开发 。 国 内 的 中 科 院 、 中 


究 。 涉 及 Benchmark、SQL、 并 行 算法 、 性 能 优化 、 高 可 用 性 等 多 个 方面 。 


在 工业 界 ，Spark 已 经 在 互联 网 领域 得 到 广泛 应 用 。 互 联网 用 户 群体 庞大 ， 需 要 存储 大 数据 并 进行 数据 分 析 ，Spark 能 够 支持 多 范式 的 数据 分 析 ， 解 决 了 大 数据 分 析 中 迫在眉睫 的 问题 。 例 如 ， 国 外 
Cloudera、MapR 等 大 数据 厂商 全 面 支持 Spark， 微 策略 等 老牌 BI 厂商 也 和 Databricks 达 成 合作 关系 ，Yahoo! 使 用 Spark 进 行 日 志 分 析 并 积极 回 


H 


在 工业 界 落 地 ， 许 多 科研 院 校 开始 了 对 Spark 的 研 


到 很 多 公司 的 青睐 ， 淘 宝 构建 Spark on Yarn 进 行 用 户 交易 数据 分 析 ， 使 用 GraphX 进 行 轿 


谱 分 析 。 网 易 用 Spark 和 Shark 对 海量 数据 进行 报表 和 查询 。 腾讯 使 


下 面 将 选取 代表 性 的 Spark 应 用 案例 进行 分 析 ， 以 便于 读者 了 解 Spark 在 工业 界 的 应 


状况 。 


人 民 大 学 、 南 京 大 学 、 华 东 师 范 大 学 等 也 开始 对 Spark 展 开 相 关 研 


馈 社区 ，Amazon 在 云端 使 用 Spark 进 行 分 析 。 国 内 同样 得 


Spark 进 行 精准 广告 推荐 。 


1.5.1 _ Spark 在 Amazon 中 的 应 用 


亚马逊 云 计算 服务 AWS (Amazon Web Services) 提供 laaS 和 PaaS 服 务 。Heroku、Netflix 等 众多 知名 公司 都 将 自己 的 服务 托管 其 上 。AWs 以 Web 服 务 的 形式 向 企业 提供 IT 基础 设施 服务 ， 现 在 通常 
称 为 云 计算 。 云 计算 的 主要 优势 是 能 够 根据 业务 发 展 扩展 的 较 低 可 变 成 本 替代 前 期 资本 基础 设施 费用 。 利 用 云 ， 企 业 无 须 提前 数 周 或 数 月 来 计划 和 采购 服务 器 及 其 他 IT 基础 设施 ， 即 可 在 几 分 钟 内 即时 运行 
成 百 上 干 台 服 务 器 ， 并 更 快 达成 结果 。 


1. 亚 马 逊 AWS 云 服务 的 内 容 


目前 亚马逊 在 EMR 中 提供 了 弹性 Spark 服 务 ， 用 户 可 以 按 需 动态 分 配 Spark 集 群 计算 节点 ， 随 着 数据 规模 的 增长 ， 扩 展 自己 的 Spark 数 据 分 析 集 群 ， 同 时 在 云端 的 Spark 集 群 可 以 无 颖 集成 亚马逊 云端 的 
其 他 组 件 ， 一 起 构建 数据 分 析 流 水 线 。 


亚马逊 云 计 算 服 务 AWS 提 供 的 服务 包括 : 亚马逊 弹性 计算 云 (Amazon EC2) 、 亚 马 逊 简单 存储 服务 (Amazon S3) 、 亚 马 逊 弹性 MapReduce (Amazon EMR) 、 亚 马 逊 简单 数据 库 (Amazon 
SimpleDB) 、 亚 马 逊 简单 队列 服务 (Amazon Simple Queue Service) , Amazon DynamoDB 以 及 Amazon CloudFront 等 。 基 于 以 上 的 组 件 ， 亚 马 逊 开始 提供 EMR 上 的 弹性 Spark 服 务 。 用 户 可 以 像 之 
前 使 用 EMR 一 样 在 亚马逊 动态 申请 计算 节点 ， 可 随 着 数据 量 和 计算 需求 来 动态 扩展 计算 资源 ， 将 计算 能 力 水 平 扩展 ， 按 需 进行 大 数据 分 析 。 亚 马 逊 提供 的 云 服务 中 已 经 支持 使 用 Spark 集 群 进行 大 数据 分 
析 。 数 据 可 以 存储 在 S3 或 者 Hadoop 存 储 层 ， 通 过 Spark 将 数据 加 载 进 计算 集群 进行 复杂 的 数据 分 析 。 


亚马逊 AWsS 架 构 如 图 1-7 所 示 。 
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图 1-7 HAWS 


2. 亚 马 逊 的 EMR 中 提供 的 3 种 主要 组 件 

' Master Node: 主 节点 ， 负 责 整 体 的 集群 调度 与 元 数据 存储 。 

: Core Node: Hadoop 节 点 ， 负 责 数据 的 持 和 久 化 存储 ， 可 以 动态 扩展 资源 ， 如 更 多 的 CPU Core、 更 大 的 内 存 、 更 大 的 HDFS 存 储 空间 。 为 了 防止 HDFS 损 坏 ， 不 能 移 除 Core Nodes 
< Task Node: Spark 计 算 节 点 ， 负 责 执行 数据 分 析 任务 ， 不 提供 HDFS， 只 负责 提供 计算 资源 〈CPU 和 内 存 ) ， 可 以 动态 扩展 资源 ， 可 以 增加 和 移 除 Task Nodes 

3. 使 用 Spark on Amazon EMR 的 优势 

“ 构建 速度 快 : 可 以 在 几 分 钟 内 构建 小 规模 或 者 大 规模 Spark 集 群 ， 以 进行 数据 分 析 。 


“ 运 维 成 本 低 : EMR 负 责 整个 集群 的 管理 与 控制 ，EMR 也 会 负责 失效 节点 的 恢复 。 


- 云 生态 系 统 数据 处 理 组 件 丰 富 : Spatk 集 群 可 以 很 好 地 与 Amazon 云 服务 上 的 其 他 组 件 无 缝 集 成 ， 利 用 其 他 组 件 构建 数据 分 析 管 道 。 例 如 ，Spatk 可 以 和 EC2 Spot Market, Amazon Redshift, Amazon Data 
pipeline, Amazon CloudWatch 等 组 合 使 用 。 


“ 方便 调试 : Spa 水 集群 的 日 志 可 以 直接 存储 到 Amazon S3 中 ， 方 便 用 户 进行 日 志 分 析 。 


综合 以 上 优势 ， 用 户 可 以 真正 按 需 弹性 使 用 与 分 配 计算 资源 ， 实 现 节省 计算 成 本 、 减 轻 运 维 压 力 ， 在 几 分 钟 内 构建 自己 的 大 数据 分 析 平 台 。 


4.Spark on Amazon EMR 架 构 解析 


通过 图 1-8 可 以 看 到 整个 Spark on Amazon EMR 的 集群 架构 。 下 面 以 图 1-8 为 例 ， 分 析 用 户 如 何在 应 用 场景 使 用 服务 。 
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图 1-8 Amazon Spark on EMR 


构建 集群 ， 首 先 创建 一 个 Master Node 作 为 集群 的 主 节点 。 之 后 创建 两 个 Core Node 存 储 数 据 ， 两 个 Core Node 总 共有 32GB 的 内 存 。 但 是 这 些 内 存 是 不 够 Spark 进 行内 存 计算 的 。 接 下 来 动态 申请 16 


当 用 户 开始 分 析 数 据 时 ，Spark RDD 的 输入 既 可 以 来 自 Core Node 中 的 HDFS， 也 可 以 来 自 Amazon S3， 还 可 以 通过 输入 数据 创建 RDD。 用 户 在 RDD 上 进行 各 种 计算 范式 的 数据 分 析 ， 最 终 可 以 将 分 析 
结果 输出 到 Core Node 的 HDFS 中 ， 也 可 以 输出 到 Amazon S3 中 。 


5. 应 用 案例 : 构建 1000 个 节点 的 Spark 集 群 
读者 可 以 通过 下 面 的 步骤 ， 在 Amazon EMR 上 构建 自己 的 1000 个 节点 的 Spark 数 据 分 析 平台 。 


1) 启动 1000 个 节点 的 集群 ， 这 个 过 程 将 会 花费 10~20 分 钟 。 


./elas2c-mapreduce --create -alive 
--name "Spark/Shark Cluster" X 
--bootstrap-ac2on 
s3: //elasBcmapreduce/samples/spark/0.8.1/install-spark-shark.sh 
--bootstrap-name "Spark/Shark" 
--instance-type | ml.xlarge 
--instance-count 1000 


2) 如 果 希 望 继续 动态 增加 计算 资源 ， 可 以 输入 下 面 命令 增加 Task Node. 


—-add-instance-group TASK 
--instance-count INSTANCE COUNT 
--instance-type INSTANCE TYPE 


执行 完 步骤 1) 或 者 1) 、2) 后 ， 集 群 将 会 处 于 图 1-9 所 示 的 等 待 状态 。 


Elastic MapReduce ~ Cluster List > Cluster Details 


Cluster: Spark/Shark Cluster Waiting waiting for steps to run 


Master public DNS: 6c2-107-20-0-141.compute-1.amazonaws.com 
Tags: -- View All / Edit 


Summary Configuration Details Security/Network 
ID: j:.MGQOH4LOJJKG AMI version: 2.4.2 Availability us-east-1a 


Creation date: 2014-06-18 18:02 (UTC-7) Hadoop Amazon 1.0.3 zone: 
Elapsed time: 20 minutes distribution: Subnet ID: -- 


Auto-terminate: No Applications: -- Key name: OD /MSSMeypalr 
Termination Off Change Log URI: i i EC2 role: -- 
protection: Visible to all None Change 
users: 


Hardware 
Master: Running 1 m1.xlarge 
Core: Running 999 m1.xlarge 
Task: -- 


图 1-9 集群 细节 监控 界面 


进入 管理 界面 http://localhost:9091 可 以 查看 集群 资源 使 用 状况 ; 进入 http://localhost:8080 可 以 观察 Spark 集 群 的 状况 。Lynx 界 面 如 图 1-10 所 示 。 


3) 加 载 数据 集 。 


示例 数据 集 使 用 Wiki 文 章 数据 ， 总 量 为 4.5TB， 有 1 万 亿 左右 记录 。Wiki 文 章 数据 存储 在 S3 中 ， 下 载 地 址 为 53: //bigdata-spark-demo/wikistats/, 


下 面 创建 wikistats 表 ， 将 数据 加 载 进 表 : 


Create external table wikistats 
[i 


projectcode string. 
pagename string, 
pageviews int, 
pagesize int 


ROW FORMAT 

DELIMITED FIELDS 

TERMINTED BY" 

LOCATION 's3n: //bigdata-spark-demo/wikistats/'; 

ALTER TABLE wikistats add partition (dt-'2007-12') location 's3n: //bigdata-spark-demo//wikistats/2007/2007-12'; 

http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14947/OEBPS/Text./ . . http: / /www.hzcourse.com/resource/readBook?path-/openresources/teach ek 


Cluster Summary 


9 files and directories, 1 blocks = 10 total. Heap Size is 314 MB / 2 GB (15X) 
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DFS Remaining 
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DFS Remainingi 

Live Nodes 

Dead Nodes 
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Number of Under-Replicated Blocks 


NameNode Storage: 


图 1-10 Lynx 界 面 
4) 分 析 数 据 。 


使 用 Shark 获 取 2014 年 2 月 的 Top 10 页 面 。 用 户 可 以 在 Shark 输 入 下 面 的 SQL 语句 进行 分 析 。 


Select pagename, sum (pageviews) c from wikistats cached where dt-'2014-01" 
group by pagename order by c desc limit 10 


这 个 语句 大 致 花 费 26s， 扫 描 了 250GB 的 数据 。 


云 计 算 带 来 资源 的 按 需 分 配 ， 用 户 可 以 采用 云端 的 虚 机 作为 大 数据 分 析 平 台 的 底层 基础 设施 ， 在 上 端 构建 Spark 集 群 ， 进 行 大 数据 分 析 。 随 着 处 理 数据 量 的 增加 ， 按 需 扩展 分 析 节 点 ， 增 加 集群 的 数据 
分 析 能 力 。 


在 Spark 技 术 的 研究 与 应 用 方面 ，Yahoo! 始终 处 于 领先 地 位 ， 它 将 Spark 应 用 于 公司 的 各 种 产品 之 中 。 移 动 App、 网 站 、 广 告 服务 、 图 片 服务 等 服务 的 后 端 实时 处 理 框架 均 采 用 了 Spark+Shark 的 架 


在 2013 年 ，Yahoo! 拥有 72656600 个 页 面 ， 有 上 百 万 的 商品 类 别 ， 上 干 个 商品 和 用 户 特征 ， 超 过 800 万 用 户 ， 每 天 需要 处 理 海量 数据 。 


通过 图 1-11 可 以 看 到 Yahool 使 用 Spark 进 行 数据 分 析 的 整体 架构 。 
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1-11 Yahoo! 大 数据 分 析 栈 


大 数据 分 析 平台 架构 解析 如 下 。 


整个 数据 分 析 栈 构 建 在 YARN 之 上 ， 这 是 为 了 让 Hadoop 和 Spark 的 任务 共存 。 主 要 包含 两 个 主要 模块 : 


1) 离线 处 理 模块 : 使 用 MapReduce 和 Spark+Shark 混 合 架构 。 由 于 MapReduce 适 合 进行 ETL 处 理 ， 还 保留 Hadoop 进 行 数据 清洗 和 转换 。 数 据 在 ETL 之 后 加 载 进 HDFS/HCat/Hive 数 据 仓库 存储 ， 之 
后 可 以 通过 Spark、Shark 进 行 OLAP 数 据 分 析 。 


2) 实时 处 理 模块 : 使 用 Spark Streaming+Spark+Sshark 架 构 进行 处 理 。 实 时 流 数据 源源 不 断 经 过 Spark steaming 初 步 处 理 和 分 析 之 后 ， 将 数据 追加 进 关系 数据 库 或 者 NoSQL 数 据 库 。 之 后 ， 结 合 历 
史 数 据 ， 使 用 Spark 进 行 实时 数据 分 析 。 


之 所 以 选择 Spark，Yahoo! 基于 以 下 几 点 进行 考虑 。 


A 


进行 交互 式 SQL 分 析 的 应 用 需求 。 


2) RAM 和 SSD 价 格 不 断 下 降 ， 数 据 分 析 实 时 性 的 需求 越 来 越 多 ， 大 数据 急需 一 个 内 存 计 算 框架 进行 处 理 。 


Ww 


程序 员 熟 悉 Scala 开 发 ， 接 受 Spark 学 习 曲 线 不 陡峭 。 


4) Spark 的 社区 活跃 度 高 ， 开 源 系 统 的 Bug 能 够 更 快 地 解决 。 


传统 Hadoop 生 态 系统 的 分 析 组 件 在 进行 复杂 数据 分 析 和 保证 实时 性 方面 表现 得 力不从心 。Spark 的 全 栈 支 持 多 范式 数据 分 析 能 够 应 对 多 种 多 样 的 数据 分 析 需 求 。 


w 


6) 可 以 无 颖 将 Spark 集 成 进 现 有 的 Hadoop 处 理 架构 。 


Yahoo! 的 Spark 集 群 在 2013 年 已 经 达到 9.2TB 持 久 存储 、192GB RAM、112 节 点 (每 节点 为 SATA 1x500GB (7200 转 的 硬盘 ) ) 、400GB SSD (1x400GB SATA 300MB/s) 的 集群 规模 。 


1.5.3 Spark 在 西班牙 电信 的 应 用 


西班牙 电信 (Telefónica, S.A.) 是 西班牙 的 一 家 电信 公司 。 这 是 全 球 第 五 大 固 网 和 移动 通信 运 莒 商 。 


Telef6nica 成 立 于 1924 年 。 在 1997 年 电信 市 场 自 由 化 之 前 ，Telef6nica 是 西班牙 唯一 的 电信 运营 商 ， 至 今 仍 占据 主要 的 市 场 份额 (2004 年 超过 75%) 。 


西班牙 电信 的 数据 与 日 俱 增 ， 随 着 数据 的 增长 ， 网 络 安全 成 为 一 个 不 可 忽视 的 问题 而 凸显 。DDoS 攻 击 、SQL 注 入 攻击 、 网 站 置换 、 账 号 盗用 等 网 络 犯罪 频繁 发 生 。 如 何 通过 大 数据 分 析 ， 预 防 网 络 犯罪 
与 正确 检测 诊断 成 为 迫在眉睫 的 问题 。 


传统 的 应 对 方案 是 ， 采 用 中 心 化 的 数据 存储 ， 收 集 事件 、 日 志和 警告 信息 ， 对 数据 分 析 预 警 ， 并 对 用 户 行为 进行 审计 。 但 是 随 着 犯罪 多 样 化 与 数据 分 析 技术 越 来 越 复杂 ， 架 构 已 经 演变 为 中 心 架构 服务 
化 ， 并 提供 早期 预警 、 离 线 报告 、 趋 势 预测 、 决 策 支 持 和 可 视 化 的 大 数据 网 络 安全 分 析 预 警 策略 。 


西班牙 电信 采用 Stratio 公 司 提供 的 含有 Spark 的 数据 分 析 解 决 方案 构建 自身 的 网 络 安全 数据 分 析 栈 ， 将 使 用 的 大 数据 系统 缩减 了 一 半 ， 平 台 复杂 性 降低 ， 同 时 处 理性 能 成 倍 提升 。 


整体 架构 如 图 1-12 所 示 。 


在 架构 图 中 ， 最 顶层 通过 Kafka 不 断 收集 事件 、 日 志 、 预 警 等 多 数据 源 的 信息 ， 形 成 流 数据 ， 完 成 数据 集成 的 功能 。 接 下 来 Kafka 将 处 理 好 的 数据 传输 给 Storm ，Storm 将 数据 混合 与 预 处 理 。 最 后 将 数 
据 存储 进 Cassandra、Mongo 和 HDFSs 进 行 持久 化 存储 ， 使 用 Spark 进 行 数 据 分 析 与 预警 。 


在 数据 收集 阶段 : 数据 源 是 多 样 化 的 ， 可 能 来 自 DNS 日 志 、 用 户 访问 IP、 社 交 媒 体 数据 、 政 府 公共 数据 源 等 。Kafka 到 数据 源 拉 取 不 同 数据 维度 数据 。 


在 数据 预 处 理 阶段 : 通过 Storm 进 行 数 据 预 处 理 与 规范 化 。 在 这 个 阶段 为 了 能 够 实时 预警 ， 采 用 比 Spark Streaming 实 时 性 更 高 的 Storm 进行 处 理 。 


在 数据 批 处 理 阶段 : 数据 经 过 预 处 理 阶段 之 后 将 存储 到 Cassandra 中 持久 化 。 开 发 人 员 通 过 Cassandra 进 行 一 些 简单 的 查询 和 数据 报表 分 析 。 对 于 复杂 的 数据 分 析 ， 需 要 使 用 Spark 来 完成 。 


Spark+Cassandra 的 架构 结合 了 两 个 系统 的 优势 。Cassandra 的 二 级 索引 能 够 加 速 查询 处 理 。 


Spark 对 机 器 学 习 和 图 计算 等 复杂 数据 分 析 应 对 自如 ， 二 者 组 合 能 够 应 对 常见 和 复杂 的 数据 分 析 负 载 。 


Data Fusion 


“ 数据 集成 : 使 用 Kafka 
“数据 预 处 理 : 使 用 Storm 
*。 批 处 理 : 使 用 Cassandra+Spark 


Machine N 


图 1-12 西班牙 电信 数据 分 析 平 台 


1.5.4 _ Spark 在 淘宝 的 应 用 


数据 挖 握 算 法 有 时 候 需 要 迭代， 每 次 迭代 时 间 非 常 长 ， 这 是 淘宝 选择 一 个 更 高 性 能 计算 框架 Spark 的 原因 。Spark 编 程 范式 更 加 简洁 也 是 一 大 原因 。 另 外 ，GraphX 提 供 图 计算 的 能 力也 是 很 重要 的 。 


1.Spark on YARN 架 构 
Spark 的 计算 调度 方式 从 Mesos 到 Standalone， 即 自 建 Spark 计 算 集 群 。 虽 然 Standalone 方 式 性 能 与 稳定 性 都 得 到 了 提升 ， 但 自 建 集群 资源 少 ， 需 要 从 云梯 集群 复制 数据 ， 不 能 满足 数据 挖掘 与 计算 团 
队 业 务 需 求 [1]。 而 Spark on YARN 能 让 Spark 计 算 模型 在 云梯 YARN 集 群 上 运行 ， 直 接 读 取 云梯 上 的 数据 ， 并 充分 享受 云梯 YARN 集 群 丰富 的 计算 资源 。 图 1-13 为 Spark on YARN 的 架构 。 
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1-13 Spark on YARN 架 构 


Spark on YARN 架 构 解析 如 下 。 


基于 YARN 的 Spark 作 业 首 先 由 客户 端 生成 作业 信息 ， 提 交 给 ResourceManager，ResourceManager 在 某 一 NodeManager 民 报时 把 AppMaster 分 配给 NodeManager，NodeManager 启 动 
SparkAppMaster，SparkAppMaster 启 动 后 初始 化 作业 ， 然 后 向 ResourceManager 申 请 资源 ， 申 请 到 相应 资源 后 ，SparkAppMaster 通 过 RPC 让 NodeManager 启 动 相应 的 
SparkExecutor，SparkExecutor 向 SparkAppMaster 汇 报 并 完成 相应 的 任务 。 此 外 ，SparkClient 会 通过 AppMaster 获 取 作 业 运 行 状 态 。 目 前 ， 淘 宝 数据 挖掘 与 计算 团队 通过 Spark on YARN 已 实现 
MLR、PageRank 和 JMeans 算 法 ， 其 中 MLR 已 作为 生产 作业 运行 。 


N 


办 作 系 统 


EN 


Spark Streaming: 淘宝 在 云梯 构建 基于 Spark Streaming 的 实时 流 处 理 框架 。Spark streaming 适 合 处 理 历史 数据 和 实时 数据 混合 的 应 用 需求 ， 能 够 显著 提高 流 数据 处 理 的 吞吐 量 。 其 对 交易 数 
据 、 用 户 浏览 数据 等 流 数据 进行 处 理 和 分 析 ， 能 够 更 加 精准 、 快 速 地 发 现 问题 和 进行 预测 。 


2) GraphX7l: 淘宝 将 交易 记录 中 的 物品 和 人 组 成 大 规模 图 。 使 用 GraphX 对 这 个 大 图 进行 处 理 (上 亿 个 节点 ， 几 十 亿 条 边 ) 。GraphX 能 够 和 现 有 的 Spark 平 台 无 颖 集成 ， 减 少 多 平台 的 开发 代价 。 


本 节 主 要 介绍 了 Spark 在 工业 界 的 应 用 。Spark 起 源 于 学 术 界 ， 发 展 于 工业 界 ， 现 在 已 经 成 为 大 数据 分 析 不 可 或 缺 的 计算 框架 。 通 过 Amazon 提 供 Spark 云 服务 ， 可 以 看 到 Big Data on Cloud 已 经 兴 
起 。Yahoo! 很 早 就 开始 使 用 Spark， 将 Spark 用 于 自己 的 广告 平台 、 商 品 交 易 数据 分 析 和 推荐 系统 等 数据 分 析 领 域 。 同 时 Yahoo! 也 积极 回馈 社区 ， 与 社区 形成 良好 的 互动 。Stratio 公 司 为 西班牙 电信 提供 
基于 Spark+Cassandra+Storm 架 构 的 数据 分 析 解 决 方案 ， 实 现 流 数 据 实 时 处 理 与 离线 数据 分 析 兼 顾 ， 通 过 它们 的 案例 可 以 看 到 多 系统 混合 提供 多 数据 计算 范式 分 析 平台 是 未 来 的 一 个 趋势 。 最 后 介绍 国内 
淘宝 公司 的 Spark 应 用 案例 ， 淘 宝 是 国内 较 早 使 用 Spark 的 公司 ， 通 过 Spark 进 行 大 规模 机 器 学 、 图 计算 以 及 流 数据 分 析 ， 并 积极 参与 社区 ， 与 社区 形成 良好 互动 ， 并 乐于 分 享 技术 经 验 。 希 望 读 者 通过 企业 
案例 能 够 全 面 了 解 Spark 的 广泛 应 用 和 适用 场景 。 


[1] 参 见 沈 洪 的 《深入 剖析 阿里 巴巴 云梯 YARN 集 群 》，《 程 序 员 》 , 2013.12. 


] 参见 文章 : 黄 明 ， 吴 炜 .快刀 初试 : Spark GraphX 在 淘宝 的 实践 .程序 员 ，2014.8。 


16 ”本章 小 结 


本 章 首先 介绍 了 Spark 分 布 式 计算 平台 和 BDAS。BDAS 的 核心 框架 Spark 为 用 户 提供 了 系统 底层 细节 透明 、 编 程 接口 简洁 的 分 布 式 计算 平台 。Spark 具 有 计算 速度 快 、 实 时 性 高 、 容 错 性 好 等 突出 特点 。 
基于 Spark 的 应 用 已 经 逐步 落地 ， 尤 其 是 在 互联 网 领域 ， 如 淘宝 、 腾 讯 、 网 易 等 公司 的 发 展 已 经 成 熟 。 同 时 电信 、 银 行 等 传统 行 也 开始 逐步 试 水 Spark 并 取得 了 较 好 效果 。 本 章 也 对 Spark 的 基本 情况 、 架 
构 、 运 行 逻 辑 等 进行 了 介绍 。 最 后 介绍 了 Spark 在 工业 界 的 应 用 ， 读 者 可 以 看 到 Spark 的 鞍 勃 发 展 以 及 在 大 数据 分 析 平台 中 所 处 的 位 置 及 重要 性 。 


读者 通过 本 章 可 以 初步 认识 和 理解 Spark， 更 为 底层 的 细节 将 在 后 续 章 节 详细 阐述 。 


相信 读者 已 经 想 搭建 自己 的 Spark 集 群 环境 一 探究 竟 了 ， 接 下 来 将 介绍 Spark 的 安装 与 配置 。 


第 2 章 ”Spark 集群 的 安装 与 部 署 


Spark 的 安装 简便 ， 用 户 可 以 在 官网 上 下 载 到 最 新 的 软件 包 ， 网 址 为 http://spark.apache.org/。 


Spark 最 早 是 为 了 在 Linux 平 台 上 使 用 而 开发 的 ， 在 生产 环境 中 也 是 部 署 在 Linux 平 台 上 ， 但 是 Spark 在 UNIX、Windwos 和 Mac OS X 系 统 上 也 运行 良好 。 不 过 ， 在 Windows 上 运行 Spark 稍 显 复杂 ， 必 
须 先 安装 Cygwin 以 模拟 Linux 环 境 ， 才 能 安装 Spark。 


由 于 Spark 主 要 使 用 HDFS 充 当 持久 化 


Will 


， 所 以 完整 地 使 用 Spark 需 要 预先 安装 Hadoop。 下 面 介 绍 Spark 集 群 的 安装 和 部 署 。 


2.1 _ Spark 的 安装 与 部 署 


Spark 在 生产 环境 中 ， 主 要 部 署 在 安装 有 Linux 系 统 的 集群 中 。 在 Linux 系 统 中 安装 Spark 需 要 预先 安装 JDK、Scala 等 所 需 的 依赖 。 由 于 Spark 是 计算 框架 ， 所 以 需要 预先 在 集群 内 有 搭建 好 存储 数据 的 持 
久 化 层 ， 如 HDFS、Hive、Cassandra 等 。 最 后 用 户 就 可 以 通过 启动 脚本 运行 应 用 了 。 


2.1.1 在 Linux 集 群 上 安装 与 配置 Spark 


下 面 介绍 如 何在 Linux 集 群 上 安装 与 配置 Spark。 


1. 安 装 JDK 


安装 JDK 大 致 分 为 下 面 4 个 步 又。 


1) 用 户 可 以 在 Oracle JDK 的 官网 下 载 相应 版 本 的 JDK， 本 例 以 JDK 1.6 为 例 ， 官 网 地 址 为 http://www.oracle.com/technetwork/java/javase/downloads/index.html。 


2) 下 载 后 ， 在 解压 出 的 JDK 的 目录 下 执行 bin 文 件 。 


./jdk-6u38-ea-bin-b04-linux-amd64-31 oct 2012.bin 


3) 配置 环境 变量 ， 在 /etc/profile 增 加 以 下 代码 。 


JAVA HOME-/home/chengxu/jdkl.6.0 38 

PATH-SJAVA HOME/bin: $PATH M 

CLASSPATH-.: S$JAVA HOME/jre/lib/rt.jar: $JAVA HOME/jre/lib/dt.jar: $JAVA HOME/jre/lib/tools.jar 
export JAVA HOME PATH CLASSPATH B "m 


4) 使 profile 文 件 更 新 生效 。 


./etc/profile 


2. 安 装 Scala 


Scala 官 网 提供 各 个 版 本 的 Scala， 用 户 需 要 根据 Spark 官 方 规定 的 Scala 版 本 进行 下 载 和 安装 。Scala 官 网 地 址 为 http://www.scala-lang.org/。 
以 Scala-2.10 为 例 进行 介绍 。 
1) 下 载 scala-2.10.4.tgz。 


2) 在 目录 下 解压 : 


tar -xzvf scala-2.10.4.tgz 


3) 配置 环境 变量 ， 在 /etc/profile 中 添加 下 面 的 内 容 。 


export SCALA HOME-/home/chengxu/scala-2.10.4/scala-2.10.4 
export PATH-$ {SCALA HOME] /bin: $PATH 


4) 使 profile 文 件 更 新 生效 。 


./etc/profile 


3. 配 置 SSH 免 密码 登录 


在 集群 管理 和 配置 中 有 很 多 工具 可 以 使 用 。 例 如 ， 可 以 采用 pssh 等 Linux 工 具 在 集群 中 分 发 与 复制 文件 ， 用 户 也 可 以 自己 书写 Shell、Python 的 脚本 分 发 包 。 


Spark 的 Master 节 点 向 Worker 节 点 发 命令 需要 通过 ssh 进 行 发送 ， 用 户 不 希望 Master 每 发 送 一 次 命令 就 输入 一 次 密码 ， 因 此 需要 实现 Master 无 密码 登录 到 所 有 Worker。 


Master 作 为 客户 端 ， 要 实现 无 密码 公 钥 认 证 ， 连 接 到 服务 端 Worker。 需 要 在 Master 上 生成 一 个 密 钥 对 ， 包 括 一 个 公 钥 和 一 个 私 铀 ， 然 后 将 公 钥 复制 到 Worker 上 。 当 Master 通 过 ssh 连 接 Woker 
时 ，Worker 就 会 生成 一 个 随机 数 并 用 Master 的 公 钥 对 随机 数 进行 加 密 ， 发 送 给 Worker。Master 收 到 加 密 数 之 后 再 用 私 钥 进行 解密 ， 并 将 解密 数 回 传 给 Worker，Worker 确 认 解 密 数 无 误 之 后 ， 人 允许 
Master 进 行 连接 。 这 就 是 一 个 公 钥 认 证 过 程 ， 其 间 不 需要 用 户 手工 输入 密码 ， 主 要 过 程 是 将 Master 节 点 公 钥 复 制 到 Worker 节 点 上 。 


下 面 介绍 如 何 配置 Master 与 Worker 之 间 的 SSH 免 密码 登录 。 


1) 在 Master 节 点 上 ， 执 行 以 下 命令 。 


ssh-keygen-trsa 


2) 打印 日 志 执行 以 下 命令 。 


Generating public/private rsa key pair. 
Enter file in which to save the key (/root/.ssh/id rsa): 


/* 回 车 ， 设 置 默 认 路 径 */ 
Enter pa: rase (empty for no passphrase) : 
/* 回 车 ， 设 置 空 密码 */ 


Enter same passphrase again: 
Your identification has been saved in /root/.ssh/id rsa. 
Your public key has been saved in /root/.ssh/id rsa.pub. 


如 果 是 root 用 户 ， 则 在 /root/.ssh/ 目 录 下 生成 一 个 私 钥 id_rsa 和 一 个 公 钥 id_rsa.pub。 
把 Master 上 的 id_rsa.pub 文 件 追 加 到 Worker 的 authorized_keys 内 ， 以 172.20.14.144 (Worker) 节点 为 例 。 


3) 复制 Master 的 id_rsa.pub 文 件 。 


scp id rsa.pub root@172.20.14.144: /home 
/* 可 使 用 pssh 对 全 部 节点 分 发 */ 


4) 登录 172.20.14.144 (Worker 节 点 ) ， 执 行 以 下 命令 。 


cat /home/id rsa.pub >> /root/.ssh/authorized keys 
/* 可 使 用 pssh 对 全 部 节点 分 发 */ 


其 他 的 Worker 执 行 同样 的 操作 。 

注意 : 配置 完毕 ， 如 果 Master 仍 然 不 能 访问 Worker， 可 以 修改 Worker 的 authorized_keys 文 件 的 权限 ， 命 令 为 chmod 600 authorized keys, 
4. 安 装 Hadoop 

下 面 讲解 Hadoop 的 安装 过 程 和 步骤 。 

(1) 下 载 hadoop-2.2.0 


1) 选取 一 个 Hadoop 镜 像 网 址 ， 下 载 Hadoop (官网 地 址 为 http://hadoop.apache.org/) 。 


$ wgethttp: //www.trieuvan.com/apache/hadoop/common/ 
hadoop-2.2.0/hadoop-2.2.0.tar.gz 


2) 解压 tar 包 。 


sudo tar-vxzf hadoop-2.2.0.tar.gz -C /usr/local 
cd /usr/local 

sudo mv hadoop-2.2.0 hadoop 

sudo chown -R hduser: hadoop hadoop 


Annan dn 


(2) 配置 Hadoop 环 境 变量 


1) 编辑 profile 文 件 。 


vi /etc/profile 


2) 在 profile 文 件 中 增加 以 下 内 容 。 


export JAVA HOME-/usr/lib/jvm/jdk/ 

export HADOOP INSTALL-/usr/local/hadoop 
export PATH-SPATH: S$HADOOP INSTALL/bin 
export PATH-S$PATH: SHADOOP INSTALL/sbin 
export HADOOP MAPRED HOME-S$HADOOP INSTALL 
export HADOOP COMMON HOME-SHADOOP INSTALL 
export HADOOP HDFS HOME-SHADOOP INSTALL 
export YARN HOME-SHADOOP INSTALL 


通过 如 上 配置 就 可 以 让 系统 找到 JDK 和 Hadoop 的 安装 路 径 。 
(3) 编辑 配置 文件 


1) 进入 Hadoop 所 在 目录 /usr/local/hadoop/etc/hadoop。 


2) 配置 hadoop-env.sh 文 件 。 


export JAVA HOME-/usr/lib/jvm/jdk/ 


3) 配置 core-site.xml 文 件 。 


<configuration> 

/* 这 里 的 值 指 的 是 默认 的 HDFS 路 径 */ 

<property> 

«name»fs.defaultFS«/name» 

«value»hdfs: //Master: 9000«/value» 
</property> 

/* 缓 冲 区 大 小 : io.file.buffer.size 默 认 是 4KB*/ 
<property> 
<name>io.file.buffer.size</name> 
<value>131072</value> 

«/property» 

/* 临 时 文件 夹 路 径 */ 

<property> 

<name>hadoop. tmp.dir</name> 

<value>file: /home//tmp</value> 
<description>Abase for other 

temporary directories. </description> 
</property> 

<property> 
«name»hadoop.proxyuser.hduser.hosts«/name» 
«value»*«/value» 

«/property» 

«property» 
«name»hadoop.proxyuser.hduser.groups«/name» 


«value»*«/value» 
</property> 
</configuration> 


4) 配置 yarn-site.xml 文 件 。 


«configuration» 

«property» 
«name»yarn.nodemanager.aux-services«/name» 
«value»mapreduce shuffle«/value» 

</property> 

<property> 
«name»yarn.nodemanager.aux-services.mapreduce.shuffle.class«/name» 
«value»org.apache.hadoop.mapred.ShuffleHandler«/value» 
«/property» 

/*resourcemanager 的 地 址 */ 

<property> 
«name»yarn.resourcemanager.address«/name» 
«value»Master: 8032«/value» 

</property> 

/* 调 度 器 的 端口 */ 

<property> 
«name»yarn.resourcemanager.scheduler.address«/name» 
«value» Masterl: 8030«/value» 

</property> 

/*resource-tracker 端 口 */ 

<property> 
«name»yarn.resourcemanager.resource-tracker.address«/name» 
«value» Master: 8031«/value» 

</property> 

/*resourcemanager 管 理 器 端口 */ 

<property> 
«name»yarn.resourcemanager.admin.address«/name» 
«value» Master: 8033«/value» 

</property> 

/* ResourceManager 的 Web 端口 ， 监 控 job 的 资源 调度 */ 
<property> 
«name»yarn.resourcemanager.webapp.address«/name» 
«value» Master: 8088«/value» 

«/property» 

«/configuration» 


5) 配置 mapred-site.xml| 文 件 ， 加 入 如 下 内 容 。 


«configuration» 

/*hadoop 对 map-reduce 运 行 框架 一 共 提 供 了 3 种 实现 ， 在 mapred-site.xml 中 通过 "mapreduce .framework.name" 这 个 属性 来 设置 为 "classic"、"yarn" 或 者 "local"*/ 
<property> 

<name>mapreduce . framework.name</name> 
<value>yarn</value> 

</property> 

/*MapReduce JobHistory Server 地 址 */ 

«property» 
«name»mapreduce.jobhistory.address«/name» 
«value»Master: 10020«/value» 

</property> 

/*MapReduce JobHistory Server Web UI 地 址 */ 
«property» 
«name»mapreduce.jobhistory.webapp.address«/name» 
«value»Master: 19888«/value» 

</property> 

</configuration> 


(4) 创建 namenode 和 datanode 目 录 ， 并 配置 其 相应 路 径 


1) 创建 namenode 和 datanode 目 录 ， 执 行 以 下 命令 。 


$ mkdir /hdfs/namenode 
$ mkdir /hdfs/datanode 


2) 执行 命令 后 ， 再 次 回 到 目录 /usr/local/hadoop/etc/hadoop， 配 置 hdfs-site.xmI 文 件 ， 在 文件 中 添加 如 下 内 容 。 


<configuration> 

/* 配 置 主 节点 名 和 端口 号 */ 

<property> 

«name»dfs.namenode. secondary.http-address«/name» 
«value»Master: 9001«/value» 
</property> 

/* 配 置 从 节点 名 和 端口 号 */ 

<property> 

<name>dfs.namenode . name .dir</name> 
<value>file: /hdfs/namenode</value> 
«/property» 

/* 配 置 datanogde 的 数据 存储 目录 */ 
<property> 
«name»dfs.datanode.data.dir«/name» 
«value»file: /hdfs/datanode«/value» 
</property> 

/* 配 置 副 本 数 */ 

<property> 
<name>dfs.replication</name> 
<value>3</value> 

</property> 

/* 将 dfs .webhdfs .enabled 属 性 设置 为 true， 和 否则 就 不 能 使 用 webhqfs 的 LISTSTATUS、LISTFITLESTATUS 等 需要 列 出 文件 、 文 件 夹 状态 的 命令 ， 因 为 这 些 信 息 都 是 由 namenode 保 存 的 */ 
«property» 
«name»dfs.webhdfs.enabled«/name» 
«value»true«/value» 

</property> 

</configuration> 


(5) 配置 Master 和 Slave 文 件 


1) Master 文 件 负责 配置 主 节点 的 主机 名 。 例 如 ， 


节点 名 为 Master， 则 需要 在 Master 文 件 添加 以 下 内 容 。 


Master /*Master 为 主 节点 主机 名 */ 


2) 配置 Slaves 文 件 添加 从 节点 主机 名 ， 这 样 主 节点 就 可 以 通过 配置 文件 找到 从 节点 ， 和 从 节点 进行 通信 。 例 如 ， 以 Slave1~Slave5 为 从 节点 的 主机 名 ， 就 需要 在 Slaves 文 件 中 添加 如 下 信息 。 


/Slave* 为 从 地 机 名 */ 
Slavel 
Slave2 
Slave3 
Slave4 
Slave5 


(6) 将 Hadoop 的 所 有 文件 通过 pssh 分 发 到 各 个 节点 


执行 如 下 命令 。 


./pssh -h hosts.txt -r /hadoop / 


(7) 格式 化 Namenode (在 Hadoop 根 目录 下 ) 


./bin/hadoop namenode -format 


(8) 启动 Hadoop 


./sbin/start-all.sh 


(9) 查看 是 否 配置 和 启动 成 功 


如 果 在 x86 机 器 上 运行 ， 则 通过 jps 命 令 ， 查 看 相应 的 JVM 进 程 


2584 DataNode 

2971 ResourceManager 
3462 Jps 

3179 NodeManager 

2369 NameNode 

2841 SecondaryNameNode 


注意 ， 由 于 在 IBM JVM 中 没有 jps 命 令 ， 所 以 需要 用 户 按照 下 面 命令 逐个 查看 。 


ps-aux|grep *DataNode* / * ffi DataNodeit fi * / 


5. 2e Spark 


进入 官网 下 载 对 应 Hadoop 版 本 的 Spark 程 序 包 ( 见 图 2-1) ， 官 网 地 址 为 http://spark.apache.org/downloads.html。 


$p Qf Í 、 Lightning-fast cluster computing 


Dovinload Related Projects v Documentation v Community ™ FAQ 


Latest News 


Download Spark Tun weeks to Spark Summit 2014 


The latest release is Spark 1.0.0, released May 30, 2014 (release notes) (git tag) (Jun 16, 2014 
Pre-Dullt packages: Spark 1.0.0 released iMay 30, 2014) 


bark Summit a May !1 
+ For Hadoop 1 (HDP1, CDHSY find an Apache mirer or direct fiie download ds OSSEU Dat 


e For CDH£: find an Apache mirror or direct file download 
e For Hadaop 2 (HDP2, CDH5]: find an Apache miror or direct file download 


Sources: find an Apache mirar or direct ñie download 


2214) 
Spark 0.9.1 released iàpr 08, 2014) 


Nchive 


Verify your dowmload: signatures and checksums 


Link with Spark 


Download Spark 


Spark artifacts are hosted in Maven Central. You can add a Maven dependency with the following coordinates: 


Related Projects 
groupId: org.apache.spark 
artifactıd: spark-care 2.10 
version: 1.0.0 


* Shark (SQL) 
. Sparc sreaming 
。 MLIib (machine learning) 


图 2-1 Span FREA 
截止 到 笔者 进行 本 书写 作 之 时 ，Spark 已 经 更 新 到 1.0 版 本 。 
以 Spark1.0 版 本 为 例 ， 介 绍 Spark 的 安装 。 
1) 下 载 spark-1.0.0-bin-hadoop2.tgz。 
2) 解压 tar-xzvf spark-1.0.0-bin-hadoop2.tgz。 
3) 配置 conf/spark-env.sh 文 件 
@@ 用 户 可 以 配置 基本 的 参数 ， 其 他 更 复杂 的 参数 请 见 官网 的 配置 (Configuration) 页 面 ，Spark 配 置 (Configuration) 地 址 为 : http://spark.apache.org/docs/latest/configuration.html。 


@ 编 辑 conf/spark-env.sh 文 件 ， 加 入 下 面 的 配置 参数 。 


export SCALA HOME-/path/to/scala-2.10.4 
export SPARK WORKER MEMORY-7g 

export SPARK MASTER IP-172.16.0.140 
export MASTER-spark: //172.16.0.140: 7077 


参数 SPARK_ WORKER_MEMORY 决 定 在 每 一 个 Worker 节 点 上 可 用 的 最 大 内 存 ， 增 加 这 个 数值 可 以 在 内 存 中 缓存 更 多 数据 ， 但 是 一 定 要 给 Slave 的 操作 系统 和 其 他 服务 预 留 足够 的 内 存 。 


需要 配置 SPARK_MASTER_IP 和 MASTER， 否 则 会 造成 Slave 无 法 注册 主机 错误 。 
4) 配置 slaves 文 件 。 


编辑 conf/slaves 文 件 ， 以 5 个 Worker 节 点 为 例 ， 将 节点 的 主机 名 加 入 slaves 文 件 中 。 


Slavel 
Slave2 
Slave3 
Slave4 
Slave5 


6. 启 动 集群 


(1) Spark 启 动 与 关闭 


1) 在 Spark 根 目录 启动 Spark。 


./sbin/start-all.sh 


2) 关闭 Spark。 


./sbin/stop-all.sh 


(2) Hadoop 的 启动 与 关闭 


1) 在 Hadoop 根 目录 启动 Hadoop。 


./sbin/start-all.sh 


2) 关闭 Hadoop。 


./sbin/stop-all.sh 


(3) 检测 是 否 安装 成 功 


1) 正常 状态 下 的 Master 节 点 如 下 。 


-bash-4.14 jps 

23526 Jps 

2127 Master 

7396 NameNode 

7594 SecondaryNameNode 
7681 ResourceManager 


2) 利用 ssh 登 录 Worker 节 点 。 


-bash-4.14 ssh slave2 
-bash-4.14 jps 

1405 Worker 

1053 DataNode 

22455 Jps 

31935 NodeManager 


至 此 ， 在 Linux 集 群 上 安装 与 配置 Spark 集 群 的 步骤 告 一 段落 。 


2.1.2 ”在 Windows 上 安装 与 配置 Spark 


本 节 介 绍 在 Windows 系 统 上 安装 Spark 的 过 程 。 在 Windows 环 境 下 需要 安装 Cygwin 模 拟 Linux 的 命令 行 环境 来 安装 Spark。 


(1) 安装 JDK 


相对 于 Linux、Windows 的 JDK 安 装 更 加 自动 化 ， 用 户 可 以 下 载 安装 Oracle JDK 或 者 OpenJDK。 只 安装 JRE 是 不 够 的 ， 用 户 应 该 下 载 整个 JDK。 


安装 过 程 十 分 简单 ， 运 行 二 进 制 可 执行 文件 即 可 ， 程 序 会 自动 配置 环境 变量 。 


(2) 安装 Cygwin 


Cygwin[1 是 在 Windows 平 台 下 模拟 Linux 环 境 的 一 个 非常 有 用 的 工具 ， 只 有 通过 它 才 可 以 在 Windows 环 境 下 安装 Hadoop 和 Spark。 具 体 安装 步骤 如 下 。 


1) 运行 安装 程序 ， 选 择 install from internet, 


2) 选择 网 络 最 好 的 下 载 源 进 行 下 载 。 


3) 进入 Select Packages 界 面 ( 见 图 2-2) ， 然 后 进入 Net， 选 择 openssl 及 openssh。 因 为 之 后 还 是 会 用 到 ssh 无 密 钥 登 录 的 。 


Category Current 
nrss: À ncurses-based RSS reader 
nttcp: New test TCP program 
openldap: Lightweight Directory Access Protocol suit 
openldap-devel: Lightweight Directory Access Protocc 
4&5. 5p1-2 T48k openssh: The ÜpenSSH server and client programs ] 
YSkip 411k openssl: The OpenSSL base environment 
9k ping. A basic network tool to test IP network conect 
211k planet: Flexible RDF. RSS and Atom feed sercerter 


图 2-2 ”Cygwin 安装 选择 界面 


另外 应 该 安装 “Editors Category” 下 面 的 “vim”。 这 样 就 可 以 在 Cygwin 上 方便 地 修改 配置 文件 。 


最 后 需要 配置 环境 变量 ， 依 次 选择 “我 的 电脑 ”一 “属性 ”一 “高 级 系统 设置 ”一 “环境 变量 ”命令 ， 更 新 环境 变量 中 的 path 设 置 ， 在 其 后 添加 Cygwin 的 bin 目 录 和 Cygwin 的 usmbin 两 个 目录 。 
(3) 安装 sshd 并 配置 免 密码 登录 


1) 双击 桌面 上 的 Cygwin 图 标 ， 启 动 Cygwin ， 执 行 ssh-host-config-y 命 令 ， 出 现 如 图 2-3 所 示 的 界面 。 


$ ssh-host- config m 


== (Miery: Dwerwrite existing /etc/zsh config file? (yert/no) yes 
Info: Creating default /etc/ssh config file 
Query: Overwrite existing /etc/sshd config file? (yes/no) yes 
Info: Creating default /etc/sshd confsg file 
Info: Privilege separation is set to yes hy default since DpenssH 3.1. 
Into: However, this reguirer a non-privileged account called 'sshd' 
Info: For more info on privi lege separation read /usr/share/doc/ SE FREAD 
E. priwsep. 
Query: Should privilege separation be used (yesmno) yes 
Info: Mote that creating a mew user requires that the current account hawe 
Info: Administrator privileges. Should this script attempt to create a 
*** Query: new local account 'sshd'? (yes/no) yes 
no*** Info: Updating /etcrsshd config file 


* Query: Do you want to install sshd as a service? 

Query: (Say "nan" if it 315 already installed as a service) (yes/no) yes 
Query: Enter the value of CYGWIH foc the daemon: 

Info: On Windows Server 2003, Windows Vista, and above, the 
" Info: SYSTEM account cannot Zetuid to other users -- a capability 
Info: sshd reguires. You need to have or to create a privileged 
Info: account. This script will help you do so, 


Info: You appear to be running Windows XP &4bit, Windows 7003 Serwer, 

Info: or later. On these systems, it's mot possible to use the LocalSystem 
Info: account for services that can change the user id without an 

Info; explicit password (such as passwordless logins [&e.g. public key 

Info: authentication] wia ssh). 


Info: If you want te enable that functionality, 1t's reguired to create 
Info; a new account with special privileges (unless a similar account 
Info: already g&Exists). This account is then used to rum these special 
Info: servers. 


Info: Mote that creating a mew user requires that the current account 
" Info; have Administrator privileges itself. 


Info: Mo privileged account could be found- 


Info: This script plans to use "cya serwer". 
Info: 'cyg zerwer' will only be used by registered services. 

== Query: Create new privileged user account 'cyg serwery yes/no] yes 
Info: Please enter a password for new user cyg server. Please be sure 
Info: that this password matches the password rules given on your system. 
Info: Entering no password mill exit the configuration. 

mery: Pleaxe enter the password: 

Query: Reenter: 

Query: Please enter the password: 

Query: Reenter: 


Info: User "cyg serwver' has been created with p "liu314725* 


Info: If you change the password, please remember also to change the 
Info: password for the installed secvices which use (or will soon usce) 
Info: the 'cyg server' account. 


Into: Also keep in m nd that the user 'cyg serwer” needs read permissions 
Into: on all users" relevant files for the services running as 'cyg server'. 
Info: In particular, for the sshd server all users” .ssh/authorized keys 
Info: files must have appropriate permissions to allow public key 

Info: authentication. (Re-]runming ssh-user-contig for each user will set 
Info: these permissions correctly. [Simlar restrictions apply, for 

Info: instance, for ,rhosts files if the rshd server 15 running, ctc]. 


Info: The sshd service has been installed under the "cya serwer' 
Info: account. To start the service now, call "net start sshd" or 
Info: 'cygrunsrw -5 sshd'. Otherwise, 3t will start tons: cul Ty 
Info: after the next reboot. 


Info: Host configuration fimished. Have fun! 
$ net start sshd 


YUWINM sshd RBgESriETE 
YGwIN sshd RE E Ei. 


图 2-3 Cygwin 安装 sshd 选 择 界 面 
2) 执行 后 ， 提 示 输 入 密码 ， 否 则 会 退出 该 配置 ， 此 时 输入 密码 和 确认 密码 ， 按 回 车 键 。 最 后 出 现 Host configuration finished.Have fun! 表示 安装 成 功 。 


3) 输入 net start sshd， 启 动 服务 。 或 者 在 系统 的 服务 中 找到 并 启动 Cygwin sshd 服 务 。 


注意 ， 如 果 是 Windows 8 操作 系统 ， 启 动 Cygwin 时 ， 需 要 以 管理 员 身 份 运行 〈 右 击 图 标 ， 选 择 以 管理 员 身 份 运行 ) ， 否 则 会 因为 权限 问题 ,提示 “发 生 系统 错误 5”。 


(4) 配置 SSH 免 密码 登录 


1) 执行 ssh-keygen 命 令 生成 密 钥 文件 ， 如 图 2-4 所 示 。 


—bash-4.14$ ssh-keygen -t dsa -P '' -f -/.ssh/id dsa 
Generating public/private dsa key pair. 

Your identification has been saved in /root/.ssh/id dsa. 
Your public key has been saved in /root/.ssh/id dsa.pub. 
The key fingerprint ias: 
de:03:80:51:27:00:dc:be:27:64:a9:47:ana:31:04:70 root840gq 
The key's randomart image is: 

十 一 一 上 DSA 1024]-——— 

lo.Eoooo . 
I2. .0 0 


—bash-4.14$ ssh -version 

OpenSSH 5.3p1, OpenSSL 1.0.0-fips 29 Mar 2010 
Bad escape character 'rsion'. 

-bash-4.14 li 


图 2-4 Cygwin ssh 生 成 密 钥 
2) 执行 此 命令 后 ， 在 你 的 Cygwin\home\ 用 户 名 路 径 下 面 会 生成 .ssh 文 件 夹 ， 可 以 通过 命令 ls-a/home/ 用 户 名 查看 ， 通 过 ssh-version 命 令 查 看 版 本 。 


3) 执行 完 ssh-keygen 命 令 后 ， 再 执行 下 面 命令 ， 生 成 authorized_keys 文 件 。 


cd ~/.ssh/ 
cp id dsa.pub authorized keys 


这 样 就 配置 好 了 sshd 服 务 。 

(5) 配置 Hadoop 

修改 和 配置 相关 文件 与 Linux 的 配置 一 致 ， 读 者 可 以 参照 上 文 Linux 中 的 配置 方式 ， 这 里 不 再 玲 述 。 
(6) 配置 Spark 

修改 和 配置 相关 文件 与 Linux 的 配置 一 致 ， 读 者 可 以 参照 上 文 Linux 中 的 配置 方式 ， 这 里 不 再 歼 述 。 
(7) 运行 Spark 

1) Spark 的 启动 与 关闭 


@ 在 Spark 根 目录 启动 Spark。 


./sbin/start-all.sh 


@ 关 闭 Spark。 


./sbin/stop-al1.sh 


2) Hadoop 的 启动 与 关闭 


@ 在 Hadoop 根 目录 启动 Hadoop。 


./sbin/start-all.sh 


@ 关 闭 Hadoop。 


./sbin/stop-al1.sh 


3) 检测 是 否 安装 成 功 


正常 状态 下 会 出 现 如 下 内 容 。 


-bash-4.14 jps 

23526 Jps 

2127 Master 

7396 NameNode 

7594 SecondaryNameNode 
7681 ResourceManager 
1053 DataNode 

31935 NodeManager 
1405 Worker 


如 缺少 进程 请 到 logs 文 件 夹 下 查看 相应 日 志 ， 针 对 具体 问题 进行 解决 。 


[1] 可 以 通过 官网 进行 下 载 : http://www.cygwin.com/。 


2.2 Spark 集群 初 试 


假设 已 经 按照 上 述 步骤 配置 完成 Spark 集 群 ， 可 以 通过 两 种 方式 运行 Spark 中 的 样 例 。 下 面 以 Spark 项 目 中 的 SparkPi 为 例 ， 可 以 用 


1) 以 /run-example 的 方式 执行 


可 以 按照 下 面 的 命令 执行 Spark 样 例 。 


以 下 方式 执行 样 例 。 


./bin/run-example org.apache.spark.examples.SparkPi 


2) 以 /Spark Shell 的 方式 执行 


Spark 自 带 交 互 式 的 Shell 程 序 ， 方 便 用 户 进行 交互 式 编程 。 下 面 进入 Spark Shell 的 交互 式 界 


回 


./bin/spark-shell 


可 以 将 下 面 的 例子 复制 进 Spark Shell 中 执行 。 


importscala.math.random 
importorg.apache.spark. 
objectSparkPi ( 
def main (args: Array[String]) { 
val slices = 2 
val n - 100000 * slices 
val count = sc.parallelize (1 to n, slices) .map ( i => 
val x = random * 2- 1 
val y = random * 2- 1 
if (x*x + y*y < 1) 1 else 0 
).reduce ( * ) 
println ("Pi is roughly " + 4.0 * count / n) 


按 回 车 键 执行 上 述 命令 。 


户 代码 如 果 需 要 用 到 ， 则 直接 应 用 sc 有 


注意 ，Spark Shell 中 已 经 默认 将 SparkContext 类 初始 化 为 对 象 sc。 


3) 通过 Web Ul 查看 集群 状态 


浏览 器 输入 http://masterlP:8080， 也 可 以 观察 到 集群 的 整个 状态 是 否 正常 ， 如 


图 2-5 所 示 。 集 群 会 显示 与 图 


可 ， 否 则 用 户 自己 再 初始 化 ， 就 会 出 现 端口 占用 问题 ， 相 当 于 启动 两 个 上 下 文 。 


2-5 类 似 的 画面 。masterlP 配 置 为 


户 的 Spark 集 群 的 主 节点 IP。 


Spark Master on ec2-54-234-77-87.compute- ].amazonaws.com:7077 


ook 


4 ^ | 0 [Ø eQ-54-234-77-87.compute- 1.amazonaws.com 8080 


Spark Master on ec2-54-234-77-87.compute- 
1.amazonaws.com:7077 


URL: spark.//ac2-54-234-77-87 compute-1.amazonaws.com:7077 


Workers: 4 
Cores: 8 Totaj, 0 Used 
Memory: 62.7 GB Total, 0.0 B Used 
Jobs: 0 Running, 0 Completed 


Cluster Summary 


worker-20130205193620-ip-10-157-5- 
198.ac2 intemal-38335 


worker-20130205193620-ip- 10-30-143- 
161.ac2.intemal-42928 


worker-20130905193620-ip- 10-30-152- 
34.ec? intemal- 36862 


worker-20130205193620-ip-10-30-152- 
4,ec2 intemal-40594 


Running Jobs 


Address 


ip-10-157-5- 
198.6c2 intemal-38335 


ip10-30-143- 
161.ec2 intemal:42928 


ip-10-30-182- 
.ec2 intemal:36862 


ip-10-30-122- 
4.ec2.intemal-40594 


State Cores Memory 


ANE 20  157GB008 
Used) Used) 


ANE 20 — 157GB(00B 
Used) Used) 


ANE 20 — 157GB(0B 
Used) Used) 


ANE 20 — 157GB(0B 
Used) Used) 


JoblD ^ Description Cores — Memory per Node Submit Time User State — Duration 


23 “本章 小 结 


本 章 主 要 介绍 了 如 何在 Linux 和 Windows 环 境 下 安装 部 署 Spark 集 群 。 


图 2-5 Spark Web UI 


由 于 Spark 主 要 使 用 HDFS 充 当 持 久 化 层 ， 所 以 完整 地 使 用 Spark 需 要 预先 安装 Hadoop。 通 过 本 章 介绍 ， 读 者 就 可 以 开启 Spark 的 实战 之 旅 了 。 


下 一 章 将 介绍 Spark 的 计算 模型 ，Spark 将 分 布 式 的 内 存 数据 抽象 为 弹性 分 布 式 数据 集 (RDD) ， 并 在 其 上 实现 了 丰富 的 算 子 ， 从 而 对 RDD 进 行 计算 ， 最 后 将 算 子 序列 转化 为 有 向 无 环 


图 进行 执行 和 调 


第 3 章 Sparki 计 算 模型 


创新 都 是 站 在 巨人 的 肩膀 上 产生 的 ， 在 大 数据 领域 也 不 例外 。 微 软 的 Dryad 使 用 DAG 执 行 模式 、 子 任务 自由 组 合 的 范 型 。 该 范 型 虽 稍 显 复杂 ， 但 较为 灵活 。Pig 也 针对 大 关系 表 的 处 理 提出 了 很 多 有 创意 


的 处 理 方式 ， 如 flatten、cogroup。 经 典 虽 难以 突破 ， 但 作为 后 继 者 的 Spark 借 鉴 经 典范 式 并 进行 创新 。 经 过 实践 检验 ，Spark 的 编程 范 型 在 处 理 大 数据 时 显得 简单 有 效 。<Key，Value> 的 数据 处 理 与 传输 


模式 也 大 获 全 胜 。 


3. 


活 、 高 效 的 大 数据 分 布 式 处 理 框架 。 


Spark 站 在 巨人 的 肩膀 上 ， 依 靠 Scala 强 有 力 的 函数 式 编程 、Actor 通 信 模 式 、 闭 包 、 容 器 、 泛 型 ， 借 助 统 一 资源 分 配 调度 框架 Mesos， 融 合 了 MapReduce 和 Dryad， 最 后 产生 了 一 个 简洁 、 直 观 、 灵 


与 Hadoop 不 同 ，Spark 一 开始 就 瞄准 性 能 ， 将 数据 (包括 部 分 中 间 数 据 ) 放 在 内 存 ， 在 内 存 中 计算 。 用 户 将 重复 利用 的 数据 缓存 到 内 存 ， 提 高 下 次 的 计算 效率 ， 因 此 Spark 尤 其 适合 迭代 型 和 交互 型 任 


。Spark 需 要 大 量 的 内 存 ， 但 性 能 可 随 着 机 器 数目 呈 多 线性 增长 。 本 章 将 介绍 Spark 的 计算 模型 。 


1 Spark 程 序 模型 


下 面 通过 一 个 经 典 的 示例 程序 来 初步 了 解 Spark 的 计算 模型 ， 过 程 如 下 。 


1) SparkContext 中 的 textFile 函 数 从 HDFSII 读 取 日 志文 件 ， 输 出 变量 file[。 


val file-sc.textFile ("hdfs: //xxx") 


2) RDD 中 的 filter 函 数 过 滤 带 “ERROR” 的 行 ， 输 出 errors (errors 也 是 一 个 RDD) 。 


val errors-file.filter (line-»line.contains ("ERROR") 


3) RDD 的 count 函 数 返回 “ERROR” 的 行 数 : errorscount () 。 


RDD 操 作 起 来 与 Scala 集 合 类 型 没有 太 大 差别 ， 这 就 是 Spark 追 求 的 目标 : 像 编写 单机 程序 一 样 编写 分 布 式 程序 ， 但 它们 的 数据 和 运行 模型 有 很 大 的 不 同 ， 用 户 需要 具备 更 强 的 系统 把 控 能 力 和 分 布 式 系 


统 知识 。 


从 RDD 的 转换 和 存储 角度 看 这 个 过 程 ， 如 图 3-1 所 示 。 


RDD 0 


Result RDD 
ERROR-:errorl 
INFOinfo 2 
ERRORc:error2 


Result partition 


ERROR:error3 


Monn 


Partitonn |; 


Block Block ( Array ) 


Manager 
ERROR:error1 ERROR:error1 ERROR:error6 
INFO:info2 ERROR:error2 ERROR:error7 


图 3-1 。 Spark 程序 模型 


在 图 3-1 中 ， 用 户 程序 对 RDD 通 过 多 个 函数 进行 操作 ， 将 RDD 进 行 转 换 。Block-Manager 管 理 RDD 的 物理 分 区 ， 每 个 Block 就 是 节点 上 对 应 的 一 个 数据 块 ， 可 以 存储 在 内 存 或 者 磁盘 。 而 RDD 中 的 
partition 是 一 个 逻辑 数据 块 ， 对 应 相应 的 物理 块 Block。 本 质 上 一 个 RDD 在 代码 中 相当 于 是 数据 的 一 个 元 数据 结构 ， 存 储 着 数据 分 区 及 其 逻辑 结构 映射 关系 ， 存 储 着 RDD 之 前 的 依赖 转换 关系 。 


[中 也 可 以 是 本 地 文件 或 者 其 他 的 持久 化 层 ， 如 Hive 等 。 
[中 fle 是 一 个 RDD， 数 据 项 是 文件 中 的 每 行 数据 。 


3.2 ”弹性 分 布 式 数据 集 


本 节 简 单 介绍 RDD， 并 介绍 RDD 与 分 布 式 共享 内 存 的 异同 。 


3.2.1 RDD 


在 集群 背后 ， 有 一 个 非常 重要 的 分 布 式 数据 架构 ， 即 弹性 分 布 式 数据 集 (resilient distributed dataset, RDD) ， 它 是 逻辑 集中 的 实体 ， 在 集群 中 的 多 台 机 器 上 进行 了 数据 分 区 。 通 过 对 多 人 台 机 器 上 不 
同 RDD 分 区 的 控制 ， 就 能 够 减少 机 器 之 间 的 数据 重 排 (data shuffling) 。Spark 提 供 了 “partitionBy” 运 算 符 ， 能 够 通过 集群 中 多 台 机 器 之 间 对 原始 RDD 进 行 数据 再 分 配 来 创建 一 个 新 的 RDD。RDD 是 
Spark 的 核心 数据 结构 ， 通 过 RDD 的 依赖 关系 形成 Spark 的 调度 顺序 。 通 过 对 RDD 的 操作 形成 整个 Spark 程 序 。 


(1) RDD 的 两 种 创建 方式 


1) 从 Hadoop 文 件 系 统 (或 与 Hadoop 兼 容 的 其 他 持久 化 存储 系统 ， 如 Hive、Cassandra、Hbase) 输入 (如 HDFS) 创建 。 


2) 从 父 RDD 转 换 得 到 新 的 RDD。 


(2) RDD 的 两 种 操作 算 子 


对 于 RDD 可 以 有 两 种 计算 操作 算 子 : Transformation (变换 ) 与 Action (行动 ) 。 


1) Transformation (变换 ) 。 


Transformation 操 作 是 延迟 计算 的 ， 也 就 是 说 从 一 个 RDD 转 换 生 成 另 一 个 RDD 的 转换 操作 不 是 马上 执行 ， 需 要 等 到 有 Actions 操 作 时 ， 才 真正 触发 运算 。 


2) Action (行动 ) 


Action 算 子 会 触发 Spark 提 交 作业 (Job) ， 并 将 数据 输出 到 Spark 系 统 。 


(3) RDD 的 重要 内 部 属性 


1) 分 区 列表 。 


2) 计算 每 个 分 片 的 函数 。 


Ww 


对 父 RDD 的 依赖 列表 。 


5) 每 个 数据 分 区 的 地 址 列表 (如 HDFS 上 的 数据 块 的 地 址 ) 。 


32.2 ”RDD 与 分 布 式 共享 内 存 的 异同 


4) 对 Key-Value 对 数据 类 型 RDD 的 分 区 器 ， 控 制 分 区 策略 和 分 区 数 。 


RDD 是 一 种 分 布 式 的 内 存 抽象 ， 表 3-1 列 出 了 RDD 与 分 布 式 共享 内 存 (Distributed Shared Memory, DSM) 的 对 比 。 在 DSM 系 统 [1 中 ， 应 用 可 以 向 全 局 地 址 空间 的 任意 位 置 进行 读 写 操作 。DSM 是 
一 种 通用 的 内 存 数 据 抽象 ， 但 这 种 通用 性 同时 也 使 其 在 商用 集群 上 实现 有 效 的 容错 性 和 一 致 性 更 加 困难 。 


RDD 与 DSM 主 要 区 别 在 于 所， 不 仅 可 以 通过 批量 转换 创建 即 “ 写 ”) RDD， 还 可 以 对 任意 内 存 位 置 读 写 。RDD 限 制 应 
Lineage (血统 ) 来 恢复 分 区 ， 基 本 没有 检查 点 开销 。 失 效 时 只 需要 


执行 批量 写 操 作 ， 这 样 有 利于 实现 有 效 的 容错 。 特 别 是 ， 由 于 RDD 可 以 使 


看 新 计算 丢失 的 那些 RDD 分 区 ， 就 可 以 在 不 同 节点 上 并 行 执行 ， 而 不 需要 回 滚 (Roll Back) 整个 程序 。 


表 3-1 RDD 与 DSM 的 对 比 


对 比 项 目 RDD DSM 
读 批量 或 细 粒 度 读 操 作 细 粒 度 读 操作 
写 批量 转换 操作 细 粒 度 转换 操作 
一 致 性 不 重要 (RDD 是 不 可 更 改 的 ) 取决 于 应 用 程序 或 运行 时 
落后 任务 的 处 理 任务 备份 ,重新 调度 执行 很 难处 理 
任务 安排 基于 数据 存放 的 位 置 自动 实现 取决 于 应 用 程序 


通过 备份 任务 的 复制 ，RDD 还 可 以 处 理 落后 任务 ( 即 运行 很 慢 的 节点 ) ， 这 点 与 MapReduce 类 似 ，DSM 则 难以 实现 备份 任务 ， 


与 DSM 相 比 ，RDD 模 型 有 两 个 优势 。 第 一 ， 对 于 RDD 中 的 批量 操作 ， 运 行 时 将 根据 数据 存放 的 位 置 来 调度 任务 ， 从 而 提高 性 能 。 


分 缓存 ， 将 内 存 容纳 不 下 的 分 区 存储 到 磁盘 上 。 


另外 ，RDD 支 持 粗 粒 度 和 细 粒 度 的 读 操作 。RDD 上 的 很 多 函数 操作 (如 count 和 collect 等 ) 都 是 批量 读 操作 ， 即 扫描 整个 数据 集 ， 可 以 将 任务 分 配 到 距离 数据 最 近 的 节点 上 。 同 时 ，RDD 也 支持 细 粒 度 


操作 ， 即 在 哈 希 或 范围 分 区 的 RDD 上 执行 关键 字 查找 。 


后 续 将 算 子 从 两 个 维度 结合 在 3.3 节 对 RDD 算 子 进行 详细 介绍 。 


因为 任务 及 其 副本 均 需 读 写 同一 个 内 存 位 置 的 数据 。 


第 二 ， 对 于 扫描 类 型 操作 ， 如 果 内 存 不 足以 缓存 整个 RDD， 就 进行 部 


1) Transformations (变换 ) 和 Action (行动 ) 算 子 维度 。 


2) 在 Transformations 算 子 中 再 将 数 
的 算 子 封装 于 PairRDDFunctions 类 中 ， 


居 类 型 维度 细 分 为 : Value 数 
户 需要 引入 import org.apache.spark.SparkContext. 才能 够 使 


四 注意， 这 里 的 DSM， 不 仅 指 传统 的 共享 内 存 系统 ， 还 包括 那些 通过 分 布 式 哈 希 表 或 分 布 式 文件 系统 进行 数据 共享 的 系统 ， 如 Piccolo。 


[2] 参见 论文 : Resilient Distributed Datasets:A Fault-Tolerant Abstraction for In-Memory Cluster Computings 


32.3 Spark 的 数据 存储 


Spark 


efe RB Eu fes EN oU 


mS (RDD) 。RDD 可 以 被 抽象 地 理解 为 一 个 大 的 数组 (Array) ， 但 是 这 个 数组 是 分 布 在 集群 上 的 。 逻 辑 上 RDD 的 每 个 分 


。 进 行 这 样 的 细 分 是 由 于 不 同 的 数据 类 型 处 理 思想 不 太一 样 ， 


居 类 型 和 Key-Value 对 数据 类 型 的 Transformations 算 子 。Value 型 数据 的 算 子 封装 在 RDD 类 中 可 以 直接 使 用 ，Key-Value 对 数据 类 型 


同时 有 些 算 子 是 不 同 的 。 


区 叫 一 个 Partition 。 


在 Spark 的 执行 过 程 中 ，RDD 经 历 一 个 个 的 Transfomation 算 子 之 后 ， 最 后 通过 Action 算 子 进 行 触发 操作 。 逻 辑 上 每 经 历 一 次 变换 ， 就 会 将 RDD 转 换 为 一 个 新 的 RDD，RDD 之 间 通 过 Lineage 产 生 依赖 


关系 ， 这 个 关系 在 容错 中 有 很 重要 的 作 
这 是 很 重要 的 优化 ， 以 
cache () 函数 缓存 数据 。 


Worker Nodel 


Node3) m, 


在 物理 上 ，RDD 对 象 实质 上 是 一 个 元 数据 结构 ， 存 储 着 Block、Node 等 的 映射 关系 ， 以 及 其 他 的 元 数据 信息 。 一 个 RDD 就 是 一 组 分 区 ， 在 物理 数据 存储 上 ，RDD 的 每 个 分 
Block，Block 可 以 存储 在 内 存 ， 当 内 


EA Block p RRE RDD Až 


函数 对 每 个 数据 项 并 行 计算 ) 。 本 书 会 在 后 面 章节 具体 介绍 数 拉 


如 果 是 从 HDFS 等 外 部 存储 作为 输入 数据 源 ， 数 据 按照 HDFS 中 的 数据 分 布 策 略 进行 数据 分 区 ，HDFS 中 的 一 个 Block 对 应 Spark 的 一 个 分 


图 3-2 为 RDD 的 数据 存储 模型 。 


防止 函数 式 数 


RDD 数据 管理 策略 


存 不 够 时 可 以 存储 到 磁盘 上 。 


居 项 的 一 个 子 集 ， 暴 露 给 


居 管 理 的 底 


Worker Node2 


Worker Node3 


图 3-2 RDD 数 据 管理 模型 


司 3-2 中 的 RDD_1 含 有 5 个 分 区 (pl. p2. p3. p4. p5) ， 分 别 存储 在 4 个 节点 (Node1、node2、Node3、Node4) 中 。RDD 2 含有 3 个 分 


户 的 可 以 是 一 个 Block 的 迭代 器 (例如 ， 


层 实现 细节 。 


。 变 换 的 输入 和 输出 都 是 RDD。RDD 会 被 划分 成 很 多 的 分 区 分 布 到 集群 的 多 个 节点 中 。 分 区 是 个 逻辑 概念 ， 变 换 前 后 的 新 旧 分 区 在 物理 上 可 能 是 同一 块 内存 存 储 。 
居 不 变性 (immutable) 导致 的 内 存 需求 无 限 扩张 。 有 些 RDD 是 计算 的 中 间 结 果 ， 其 分 区 并 不 一 定 有 相应 的 内 存 或 磁盘 数据 与 之 对 应 ， 如 果 要 迭代 使 用 数据 ， 可 以 调 


Worker Node4 


区 (p1, p2. p3) ， 分 布 在 3 个 节点 (Nodel, Node2, 


区 对 应 的 就 是 一 个 


户 可 以 通过 mapPartitions 获 得 分 区 和 迭代 器 进行 操作 ) ， 也 可 以 就 是 一 个 数据 项 〈 例 如， 通过 map 


区 。 同 时 Spark 支 持 重 分 区 ， 数 据 通过 Spark 默 认 的 或 者 用 户 自 定 


义 的 分 区 器 决定 数据 块 分 布 在 哪些 节点 。 例 如 ， 支 持 Hash 分 区 (按照 数据 项 的 Key 值 取 Hash 值 ，Hash 值 相同 的 元 素 放 入 同一 个 分 区 之 内 ) 和 Range 分 区 (将 


区 策略 。 


下 面具 体 介绍 这 些 算 子 的 功能 。 


3.3 Spark 算 子 分 类 及 功能 


本 节 将 3 


EF 要 介绍 Spark 算 子 的 作 


， 以 及 算 子 的 分 类 。 


属于 同一 数据 范 上 


的 数据 放 入 同一 分 区 ) 等 分 


1.Saprk 算 子 的 作 


到 3-3 描 述 了 Spark 的 输入 、 运 行 转换 、 输 出 。 在 运行 转换 中 通过 算 子 对 RDD 进 行 转换 。 算 子 是 RDD 中 定义 的 函数 ， 可 以 对 RDD 中 的 数据 进行 转换 和 操作 。 


外 部 数据 空间 


分 布 式 存储 


Scala 集合 
和 数据 类 型 


HDFS, Hive, 
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Tranformation 算 
f filter, map 等 


Spark 运行 时 数据 空间 
Cache 算 子 


3-3 ”Spatk 算 子 和 数据 空间 


1) 输入 : 在 Spark 程 序 运行 中 ， 数 据 从 外 部 数据 空间 (如 分 布 式 存储 : textFile 读 取 HDFS 等 ，parallelize 方 法 输入 Scala 集 合 或 数据 ) 输入 Spark， 数 据 进入 Spark 运 行 时 数据 空间 ， 转 化 为 Spark 中 的 数 
据 块 ， 通 过 BlockManager 进 行 管理 。 


2) 运行 : 在 spark 数 据 输入 形成 RDD 后 便 可 以 通过 变换 算 子 ， 如 fliter 等 ， 对 数据 进行 操作 并 将 RDD 转 化 为 新 的 RDD， 通 过 Action 算 子 ， 触 发 Spark 提 交 作 业 。 如 果 数 据 需 ， 可 以 通过 Cache 算 
子 ， 将 数据 缓存 到 内 存 。 


3) 输出 : 程序 运行 结束 数据 会 输出 Spark 运 行 时 空间 ， 存 储 到 分 布 式 存储 中 (如 saveAsTextFile 输 出 到 HDFS) ， 或 Scala 数 据 或 集合 中 (collect 输 出 到 Scala 集 合 ，count 返 回 Scala int 型 数据 ) 。 


Spark 的 核心 数据 模型 是 RDD， 但 RDD 是 个 抽象 类 ， 具体 由 各 子 类 实现 ， 如 MappedRDD、ShuffledRDD 等 子 类 。Spark 将 常用 的 大 数据 操作 都 转化 成 为 RDD 的 子 类 。 


2. 算 子 的 分 类 

大 致 可 以 分 为 三 大 类 算 子 。 

1) Value 数据 类 型 的 Transformation 算 子 ， 这 种 变换 并 不 触发 提交 作业 ， 针 对 处 理 的 数据 项 是 Value 型 的 数据 。 

2) Key-Value 数 据 类 型 的 Transfromation 算 子 ， 这 种 变换 并 不 触发 提交 作业 ， 针 对 处 理 的 数据 项 是 Key-Value 型 的 数据 对 。 
3) Action 算 子 ， 这 类 算 子 会 触发 SparkContext 提 交 Job 作 业 。 


下 面 分 别 对 这 3 类 算 子 进行 详细 介绍 。 


3.3.1 Value 型 Transformation 算 子 


处 理 数据 类 型 为 Value 型 的 Transformation 算 子 可 以 根据 RDD 变 换算 子 的 输入 分 区 与 输出 分 区 关系 分 为 以 下 几 种 类 型 。 


1) 输入 分 区 与 输出 分 区 一 对 一 型 。 


2) 输入 分 区 与 输出 分 区 多 对 一 型 。 


Ww 


输入 分 区 与 输出 分 区 多 对 多 型 。 


4) 输出 分 区 为 输入 分 区 子 集 型 。 


w 


还 有 一 种 特殊 的 输入 与 输出 分 区 一 对 一 的 算 子 类 型 : Cache 型 。Cache 算 子 对 RDD 分 区 进行 缓存 。 


1. 输 入 分 区 与 输出 分 区 一 对 一 型 


(1) map 


将 原来 RDD 的 每 个 数据 项 通过 map 中 的 用 户 自 定义 函数 f 映 射 转 变 为 一 个 新 的 元 素 。 源 码 中 的 map 算 子 相当 于 初始 化 一 个 RDD， 新 RDD 叫 作 MappedRDD (this, sc.clean (f) ) 。 


f:T->u 


图 3-4 map 算 子 对 RDD 转 换 


图 3-4 中 的 每 个 方 框 表示 一 个 RDD 分 
进行 运算 。V1 输 入 { 转 换 输出 V”1。 


(2) flatMap 


区 ， 左 侧 的 分 


区 经 过 用 户 自 定义 函数 f: T->U 映 射 为 右 侧 的 新 的 RDD 分 | 


区 。 但 是 实际 只 有 等 到 Action 算 子 触发 后 ， 这 个 f 函 数 才 会 和 其 他 函数 在 一 个 Stage 中 对 数据 


将 原来 RDD 中 的 每 个 元 素 通过 函数 { 转 换 为 新 的 元 素 ， 并 将 生成 的 RDD 的 每 个 集合 中 的 元 素 合并 为 一 个 集合 。 内 部 创建 FlatMappedRDD (this, sc.clean (f) ) 。 


图 3-5 中 小 方 框 表示 RDD 的 一 个 分 区 ， 对 分 区 进行 flatMap 函 数 操作 ，flatMap 中 传 入 的 函数 为 fT->U，T 和 U 可 以 是 任意 的 数据 类 型 。 将 分 区 中 的 数据 通过 用 户 自 定义 函数 转换 为 新 的 数据 。 外 部 大 方 
框 可 以 认为 是 一 个 RDD 分 区 ， 小 方 框 代 表 一 个 集合 。V1、V2、V3 在 一 个 集合 作为 RDD 的 一 个 数据 项 ， 转 换 为 V 1、V”2、V” 3 后 ， 将 结合 拆散 ， 形 成 为 RDD 中 的 数据 项 。 


图 3-5 ”flapMap 算 子 对 RDD 转 换 
(3) mapPartitions 
mapPartitions 函 数 获取 到 每 个 分 区 的 渤 代 器 ， 在 函数 中 通过 这 个 分 区 整体 的 笑 代 器 对 整个 分 区 的 元 素 进行 操作 。 内 部 实现 是 生成 MapPartitionsRDD。 图 3-6 中 的 方 框 代表 一 个 RDD 分 区 。 


图 3-6 中 ， 用 户 通过 函数 f (iter) = >iterfilter (_> =3) 对 分 区 中 的 所 有 数据 进行 过 渡 ，> =3 的 数据 保留 。 一 个 方块 代表 一 个 RDD 分 区 ， 含 有 1、2、3 的 分 区 过 小 只 剩 下 元 素 3。 


Iter=>1ter.filter( >=3) 


图 3-6  mapPartitions -FIF RDD4E $ 
(4) glom 


glom 函 数 将 每 个 分 


区 形成 一 个 数组 ， 内 部 实现 是 返回 的 GlommedRDD。 图 
图 3-7 中 的 方 框 代表 一 个 分 区 


3-7 中 的 每 个 方 框 代表 一 个 RDD 分 区 。 


。 该 图 表示 含有 V1、V2、V3 的 分 


区 通过 函数 glom 形 成 一 个 数组 Array[ (V1) ， (V2), (V3) ]。 


(V2), CV3 M] 


Array[ (U1 ), (U2) ] 


图 3-7 glom 算 子 对 RDD 转 换 
2. 输 入 分 区 与 输出 分 区 多 对 一 型 


(1) union 


使 用 union 函 数 时 需要 保证 两 个 RDD 元 素 的 数据 类 型 相同 ， 返 回 的 RDD 数 据 类 型 和 被 合并 的 RDD 元 素数 据 类 型 相同 ， 并 不 进行 去 重 操作 ， 保 存 所 有 元 素 。 如 果 想 去 有 
相当 于 uion 函 数 操作 。 


TIU 


， 可 以 使 用 distinct () 。++ 符 号 


图 3-8 ”union 算 子 对 RDD 转 换 


图 3-8 中 左 侧 的 大 方 框 代表 两 个 RDD， 大 方 框 内 的 小 方 框 代表 RDD 的 分 区 。 右 侧 大 方 框 代表 合并 后 的 RDD， 大 方 框 内 的 小 方 框 代表 分 区 。 含 有 V1，V2..….U4 的 RDD 和 含有 V1，V8...U8 的 RDD 合 并 所 有 元 


素 形成 一 个 RDD。V1、V1、V2、V8 形 成 一 个 分 
(2) cartesian 


对 两 个 RDD 内 的 所 有 元 素 进行 笛 卡 尔 积 操作 
内 的 小 方 框 代表 分 区 。 


区 ， 其 他 元 素 同 理 进行 合并 。 


。 操 作 后 ， 内 部 实现 返回 CartesianRDD。 图 3-9 中 左 侧 的 大 方 框 代表 两 个 RDD， 大 方 框 内 的 小 方 框 代表 RDD 的 分 区 。 右 侧 大 方 框 代表 合并 后 的 RDD， 大 方 杠 


(VI.Wl ) 
(V1.W2) 
A CV2,WI ) 


(U1.W1) 
(U1.W2 ) 
(U2,W1) 


(U2,W2 ) 


3-0 ”cartesian 算 子 对 RDD 转 换 


图 3-9 中 的 大 方 框 代表 RDD， 大 方 框 中 的 小 方 框 代表 RDD 分 区 。 例 如 ，V1 和 另 一 个 RDD 中 的 W1、W2、Q5 进 行 笛 卡尔 积 运算 形成 (V1, W1) 、 (V1, W2) 、 (V1, Q5). 


3. 输 入 分 区 与 输出 分 区 多 对 多 型 
groupBy: 将 元 素 通 过 函数 生成 相应 的 Key， 数 据 就 转化 为 Key-Value 格 式 ， 之 后 将 Key 相 同 的 元 素 分 为 一 组 。 
函数 实现 如 下 。 


Qsc.clean () 函数 将 用 户 函 数 预 处 理 : 


val cleanF = sc.clean (f) 


@ 对 数据 map 进 行 函数 操作 ， 最 后 再 对 groupByKey 进 行 分 组 操作 。 


this.map (t => (cleanF (t), 七 ) .groupByKey (p) 


[x] 


其 中 ，p 中 确定 了 分 区 个 数 和 分 区 函数 ， 也 就 决定 了 并 行 化 的 程度 。 图 3-10 中 的 方 框 代表 RDD 分 区 。 


图 3-10 中 的 方 框 代表 一 个 RDD 分 区 ， 相 同 key 的 元 素 合并 到 一 个 组 。 例 如 ，V1，V2 合 并 为 一 个 Key-Value 对 ,其 中 key 为 “V”,，Value 为 “V1, V2”， 形成 V, Seq (V1, V2) 。 


eroupBy 


V. Seq( V1.V2 ) 


U, (UL U2 ) 
W.CW1.W2 ) 


图 3-10 groupBy 算 子 对 RDD 转 换 


4 输出 分 区 为 输入 分 区 子 集 型 


(1) filter 


filter 的 功能 是 对 元 素 进 行 过 滤 ， 对 每 个 元 素 应 用 { 函 数 ， 返 回 值 为 true 的 元 素 在 RDD 中 保留 ， 返 回 为 false 的 将 过 滤 掉 。 内 部 实现 相当 于 生成 FilteredRDD (this, sc.clean (f) ) 。 


下 面 代码 为 函数 的 本 质 实现 。 


def filter (f: T=>Boolean) : RDD[T]=new FilteredRDD (this, sc.clean (f) ) 


图 3-11 中 的 每 个 方 杠 代表 一 个 RDD 分 区 。T 可 以 是 任意 的 类 型 。 通 过 用 户 自 定义 的 过 滤 函 数 f， 对 每 个 数据 项 进行 操作 ， 将 满足 条 件 ， 返 回 结果 为 true 的 数据 项 保留 。 例 如 ， 过 滤 掉 V2、V3 保 留 了 V1， 
将 区 分 命名 为 V1 。 


t:T--Boolean 


图 3-11 filter 算 子 对 RDD 转 换 


(2) distinct 


distinct 将 RDD 中 的 元 素 进行 去 重 操 作 。 图 3-12 中 的 方 框 代表 RDD 分 区 。 


图 3-12 中 的 每 个 方 框 代 表 一 个 分 区 ， 通 过 distinct 函 数 ， 将 数据 去 重 。 例 如 ， 重 复数 据 V1、V1 去 重 后 只 保留 一 份 V1。 


distinct 


图 3-12 distinct 算 子 对 RDD 转 换 


(3) subtract 


subtract 相 当 于 进行 集合 的 差 操 作 ，RDD 1 去 除 RDD 1 和 RDD 2 交集 中 的 所 有 元 素 。 


图 3-13 中 左 侧 的 大 方 框 代表 两 个 RDD， 大 方 框 内 的 小 方 框 代表 RDD 的 分 区 。 右 侧 大 方 框 代表 合并 后 的 RDD， 大 方 框 内 的 小 方 框 代表 分 区 。V1 在 两 个 RDD 中 均 有 ， 根 据 差 集运 算 规 则 ， 新 RDD 不 保 
留 ，V2 在 第 一 个 DD 有 ， 第 二 个 RDD 没 有 ， 则 在 新 RDD 元 素 中 包含 V2。 


V2 
V8 
U1 
E] — o U2 
U3 
— US 
UA LE 


US 


图 3-13 ”subtract 算 子 对 RDD 转 换 
(4) sample 
sample 将 RDD 这 个 集合 内 的 元 素 进 行 采样 ， 获 取 所 有 元 素 的 子 集 。 用 户 可 以 设 定 是 否 有 放 回 的 抽样 、 百 分 比 、 随 机 种 子 ， 进 而 决定 采样 方式 。 
内 部 实现 是 生成 SampledRDD (withReplacement, fraction, seed) 。 
函数 参数 设置 如 下 。 
“ withReplacement=true， 表 示 有 放 回 的 抽样 ; 


:withReplacement=false， 表 示 无 放 回 的 抽样 。 


fraction-0.5, seed-9 


图 3-14 sampble 算 子 对 RDD 转 换 


图 3-14 中 的 每 个 方 框 是 一 个 RDD 分 区 。 通 过 sample 函 数 ， 采 样 50% 的 数据 。V1、V2、U1、U2、U3、U4 采 样 出 数据 V1 和 U1、U2， 形 成 新 的 RDD。 


(5) takeSample 


takeSample () 函数 和 上 面 的 aample 函 数 是 一 个 原理 ， 但 是 不 使 用 相对 比例 采样 ， 而 是 按 设 定 的 采样 个 数 进行 采样 ， 同 时 返回 结果 不 再 是 RDD， 而 是 相当 于 对 采样 后 的 数据 进行 Collect () ， 返 回 结 
果 的 集合 为 单机 的 数组 。 


图 3-15 中 左 侧 的 方 框 代表 分 布 式 的 各 个 节点 上 的 分 区 ， 右 侧 方 框 代表 单机 上 返回 的 结果 数组 。 通 过 takeSample 对 数据 采样 ， 设 置 为 采样 一 份 数据 ， 返 回 结果 为 V1。 
5.Cache 型 


(1) cache 


[x] 


cache 将 RDD 元 素 从 磁盘 缓存 到 内 存 ， 相 当 于 persist (MEMORY ONLY) 函数 的 功能 。 图 3-14 中 的 方 框 代 表 RDD 分 区 。 


图 3-16 中 的 每 个 方 杠 代表 一 个 RDD 分 区 ， 左 侧 相当 于 数据 分 区 都 存储 在 磁盘 ， 通 过 cache 算 子 将 数据 缓存 在 内 存 。 


num-l,seed-9 


图 3-16 cache 算 子 对 RDD 转 换 
(2) persist 


persist 函 数 对 RDD 进 行 缓存 操作 。 数 据 缓存 在 哪里 由 storageLevel 枚 举 类 型 确定 。 有 以 下 几 种 类 型 的 组 合 ( 见 图 3-15) ，DISK 代 表 磁 盘 ，MEMORY 代 表 内 存 ，SER 代 表 数 据 是 否 进行 序列 化 存储 。 


下 面 为 函数 定义 ，StorageLeve| 是 枚 举 类 型 ， 代 表 存 储 模 式 ， 用 户 可 以 通过 图 3-17 按 需 选择 。 


persist (newLevel: StorageLevel) 


hn: 


图 3-17 中 列 出 persist 函 数 可 以 缓存 的 模式 。 例 如 ，MEMORY_AND_DISK_SER 代 表 数 据 可 以 存储 在 内 存 和 磁盘 ， 并 且 以 序列 化 的 方式 存储 。 其 他 同 理 。 


DISK ONLY: StorazceLewvel 


DISE ONHLY 2: S5torageLewel 
HHENOHEY AMD DISK: St 

HMENOHEY AND DISE 2: -.toraz-lL-c--1l1 
MENOETY AND DISSE ER: StorageLlLerel 
MENOERY AND DISE SER 2: 

HMENOFET ONLY: 5Storagel erel 

NWHIENOFHRTY ONLY 2: ötoarasrelewrel 
MENOHTY OHL'Y SER: Storazz-cLc--li 


MENOFHETY 0HI'T $5FR 2: Storagel erel 


图 3-17 ”Petsist 算 子 对 RDD 转 换 


网 


3-18 中 的 方 框 代表 RDD 分 区 。disk 代 表 存 储 在 磁盘 ，mem 代 表 存储 在 内 存 。 数 据 最 初 全 部 存储 在 磁盘 ， 通 过 persist (MEMORY AND DISK) 将 数据 缓存 到 内 存 ， 但 是 有 的 分 区 无 法 容纳 在 内 存 ， 例 
3-18 中 将 含有 V1，V2，V3 的 RDD 存 储 到 磁盘 ， 将 含有 U1，U2 的 RDD 仍 旧 存 储 在 内 存 。 


网 


Persist («MEMORY AND DISK) 


V1 (disk) Aa V 1 (disk) 


V2 (disk) > V 2 (disk) 
V3 (disk) "dv 3 (disk) 


Ul (disk) 
U2 ( disk) 


图 3-18 ”Persist 算 子 对 RDD 转 换 


3.3.2 ”Key-Value 型 Transformation 算 子 


Transformation 处 理 的 数据 为 Key-Value 形 式 的 算 子 ， 大 致 可 以 分 为 3 种 类 型 : 输入 分 


区 与 输出 分 区 一 对 一 、 聚 集 、 连 接 操作 。 
1. 输 入 分 区 与 输出 分 区 一 对 一 


mapValues: 针对 (Key，Value) 型 数据 中 的 Value 进行 Map 操 作 ， 而 不 对 Key 进 行 处 理 。 


图 3-19 中 的 方 框 代表 RDD 分 区 。a=>a+2 代 表 只 对 (V1，1) 数据 中 的 1 进行 加 2 操作 ， 返 回 结果 为 3。 


mapValues(a=>a+2) 


图 3-19 ”mapValues 算 子 RDD 对 转换 


2. 对 单个 RDD 或 两 个 RDD 聚 集 
(1) 单个 RDD 聚 集 
1) combineByKey。 


定义 combineByKey 算 子 的 代码 如 下 。 


combineByKey[C] (createCombiner: (V) => C, 
mergeValue: (C, V) => C, 

mergeCombiners: (C, C) => C, 

partitioner: Partitioner 

mapSideCombine: Boolean = true, 

serializer: Serializer =null): RDD[ (K, C)] 


说 明 : 
* createCombiner: V=>C， 在 C 不 存在 的 情况 下 ， 如 通过 V 创 建 seq C. 
- mergeValue: (C, V) =>C， 当 C 已 经 存在 的 情况 下 ， 需 要 merge， 如 把 item V 加 到 seq C 中 ， 或 者 登 加 。 
- mergeCombiners: (C, C) =>C， 合 并 两 个 C。 
- partitioner: Partitioner (分 区 器 ) ，Shuffle 时 需要 通过 Patrtitionet 的 分 区 策略 进行 分 区 。 
: mapSideCombine: Boolean=true， 为 了 减 小 传输 量 ， 很 多 combine 可 以 在 map 端 先 做 。 例 如 ， 且 加 可 以 先 在 一 个 partition 中 把 所 有 相同 的 Key 的 Value 有 合 加， 再 shuffle。 
- serializerClass: String=null， 传 输 需要 序列 化 ， 用 户 可 以 自 定义 序列 化 类 。 


例如 ， 相 当 于 将 元 素 为 (Int，Int) 的 RDD 转 变 为 了 (Int，Seq[Int]) 类 型 元 素 的 RDD。 


图 3-20 中 的 方 框 代表 RDD 分 区 。 通 过 combineByKey, 将 (V1, 2) 、 (V1, 1) 数据 合并 为 (V1, Seq (2, 1) ) 。 


combine ByKey 
可 以 有 多 种 实现 此 处 是 groupByKey 的 实现 


V1, Seq( 2.1 ) 
V2, Seq( 2) 
V3, Seq( 1) 


Ul, Seq ( 2.1.3) 


图 3-20 comBineByKey 算 子 对 RDD 转 换 
2) reduceByKey。 


reduceByKey 是 更 简单 的 一 种 情况 ， 只 是 两 个 值 合并 成 一 个 值 ， 所 以 createCombiner 很 简单 ， 就 是 直接 返回 v， 而 mergeValue 和 mergeCombiners 的 逻辑 相同 ， 没 有 区 别 。 


函数 实现 代码 如 下 。 

def reduceByKey (partitioner: Partitioner, func: (vV, V) => V): RDD[ (K, V)]={ 
combineByKey[V] ( (v: V) => v, func, func, partitioner) 

} 


图 3-21 中 的 方 框 代表 RDD 分 区 。 通 过 用 户 自 定义 函数 (A，B) => (A+B) ， 将 相同 Key 的 数据 (V1, 2). (V1, 1) 的 value 相 加 ,结果 为 (V1,，3) 。 


3) partitionBy。 


reduceByKey ( (A, B) = (A+B) 


partitionBy 函 数 对 RDD 进 行 分 区 操作 。 


图 3-21 treduceByYKey 算 子 对 RDD 转 换 


函数 定义 如 下 。 
partitionBy (partitioner: Partitioner) 
如 果 原 有 RDD 的 分 区 器 和 现 有 分 区 器 (partitioner) 一 致 ， 则 不 重 分 区 ， 如 果 不 一 致 ， 则 相当 于 根据 分 区 器 生成 一 个 新 的 ShuffledRDD。 


图 3-22 中 的 方 框 代 表 RDD 分 区 。 通 过 新 的 分 区 策略 将 原来 在 不 同 分 区 的 V1、V2 数 据 都 合并 到 了 一 个 分 | 


区 


PartitionBy 


W3.1 


图 3-22 partitionBy 算 子 对 RDD 转 换 


(2) 对 两 个 RDD 进 行 聚集 


cogroup 函 数 将 两 个 RDD 进 行 协同 划分 ，cogroup 函 数 的 定义 如 下 。 


cogroup[W] (other: RDD[ (K, W) ], numPartitions: Int): RDD[ (K, (Iterable[V], Iterable[W]) ) ] 


对 在 两 个 DD 中 的 Key-Value 类 型 的 元 素 ， 每 个 DD 相 同 Key 的 元 素 分 别 聚 合 为 一 个 集合 ， 并 且 返 回 两 个 DD 中 对 应 Key 的 元 素 集合 的 迭代 器 。 


(K,  (Iterable[V], Iterable[W]) ) 


其 中 ，Key 和 Value，Value 是 两 个 RDD 下 相同 Key 的 两 个 数据 集合 的 迭代 器 所 构成 的 元 组 。 


图 3-23 中 的 大 方 框 代 表 RDD， 大 方 框 内 的 小 方 框 代 表 RDD 中 的 分 区 。 将 RDD1 中 的 数据 (U1，1) 、 (U1, 2) 和 RDD2 中 的 数据 (U1, 2) 合并 为 (U1，( (1, 2) 


， (2) ) ) 。 


coGroup 


bb Ly) 
V2.((2 ), (nul) 
V8, ( (null ),( 2 )) 


ÜL(I);.(2)) 
Us.(CA),01)) 


图 3-23 Cogroup 算 子 对 RDD 转 换 
3. 连 接 


(1) join 


join 对 两 个 需要 连接 的 RDD 进 行 cogroup 函 数 操作 ，cogroup 原 理 请 见 上 文 。cogroup 操 作 之 后 形成 的 新 RDD， 对 每 个 key 下 的 元 素 进行 笛 卡 尔 积 操作 ， 返 回 的 结果 再 展 平 ， 对 应 Key 下 的 所 有 元 组 形成 
一 个 集合 ， 最 后 返回 RDD[ (K, (V, W) ) ] 


下 面 代码 为 join 的 函数 实现 ， 本 质 是 通过 cogroup 算 子 先进 行 协同 划分 ， 再 通过 flatMapValues 将 合并 的 数据 打 散 。 


this.cogroup (other, Partitioner) .flatMapValues ( case (vs, ws) => 
V <- vs; w <- ws) yield (v, w) } 


图 3-24 是 对 两 个 IDD 的 join 操作 示意 图 。 大 方 框 代表 RDD， 人 小 方 框 代 表 RDD 中 的 分 区 。 函 数 对 拥有 相同 Key 的 元 素 (例如 V1) 为 Key， 以 做 连接 后 的 数据 结果 为 (V1， (1, 1) ) 和 (V1, 
,2)). 


MECI T J 
WIS L52J 
V2. ( 2, null) 
V8, (null, 2 ) 


VCCI Jot 2)) 
V2,((2) ,(null) ) 
V8, ( (null) ,( 2)) 


UL L23 
UL i22 
U5.(4,13 


ULUGLL241 1227 
US, ((4) ,(1)) 


图 3-24 join 算 子 对 RDD 转 换 
(2) leftOutJoin 和 rightOutJoin 


LeftOutoin ( 左 外 连接 ) 和 RightOutJoin ( 右 外 连接 ) 相当 于 在 join 的 基础 上 先 判断 一 侧 的 RDD 元 素 是 否 为 空 ， 如 果 为 空 ， 则 填充 为 空 。 如 果 不 为 空 ， 则 将 数据 进行 连接 运算 ， 并 返回 结果 。 


下 面 代码 是 leftOutJoin 的 实现 。 


if (ws.isEmpty) { 
vs.map (v => (v, None) ) 
} else ( 
for (v <- vs; w <- ws) yield (v, Some (w) ) 
} 


3.3.3 Actions 


本 质 上 在 Actions 算 子 中 通过 SparkContext 执 行 提交 作业 的 runJob 操 作 ， 触 发 了 RDD DAG 的 执行 。 


例如 ，Actions 算 子 collect 函 数 的 代码 如 下 ， 感 兴趣 的 读者 可 以 顺 着 这 个 入 口 进行 源码 剖析 。 


/* 返 回 这 个 RDD 的 所 有 数据 ， 结 果 以 数组 形式 存储 */ 
def collect O : Array[T] = { 
/* 提 交 Job*/ 
val results = sc.runJob (this, (iter: Iterator[T]) => iter.toArray) 
Array.concat (results: _*) 


下 面 根据 Action 算 子 的 输出 空间 将 Action 算 子 进行 分 类 : 无 输出 、HDFS、Scala 集 合 和 数据 类 型 。 

1. 无 输出 

(1) foreach 

对 RDD 中 的 每 个 元 素 都 应 用 f 沙 数 操作 ， 不 返回 RDD 和 Array， 而 是 返回 Uint。 

图 3-25 表 示 foreach 算 子 通过 用 户 自 定义 函数 对 每 个 数据 项 进行 操作 。 本 例 中 自 定义 函数 为 println () ， 控 制 台 打印 所 有 数据 项 。 
2.HDFS 

(1) saveAsTextFile 

函数 将 数据 输出 ， 存 储 到 HDFS 的 指定 目录 。 


下 面 为 函数 的 内 部 实现 。 


this.map (x => (NullWritable.get O , new Text (x.toString) ) ) 
.saveAsHadoopFile[TextOutputFormat[NullWritable,  Text]] (path) 


将 RDD 中 的 每 个 元 素 映射 转变 为 (Null，x.toString) ， 然 后 再 将 其 写 入 HDFS。 


图 3-26 中 左 侧 的 方 框 代表 RDD 分 区 ， 右 侧 方 框 代表 HDFS 的 Block。 通 过 函数 将 RDD 的 每 个 分 区 存储 为 HDFS 中 的 一 个 Block。 


Foreach( =>println( )) 


图 3-25 ”foreach 算 子 对 RDD 转 换 


RDD 


HDFS 


Part-00000 


Part-00001 


图 3-26  saveAsHadoopFile JE 3-3 RDDZ£ 4% 


(2) saveAsObjectFile 
saveAsObjectFile 将 分 区 中 的 每 10 个 元 素 组 成 一 个 Array， 然 后 将 这 个 Array 序 列 化 ， 映 射 为 


下 面 代码 为 函数 内 部 实现 。 


(Null, BytesWritable (Y) ) 的 元 素 ， 写 入 HDFS 为 SequenceFile 的 格式 。 


map (x=> (NullWritable.get O , new BytesWritable (Utils.serialize (x) ) ) ) 


图 3-27 中 的 左 侧 方 框 代表 RDD 分 区 ， 右 侧 方 杠 代 表 HDFS 的 Block。 通 过 函数 将 RDD 的 每 个 分 


区 存储 为 HDFS 上 的 一 个 Block。 


HDFS 
SequenceFile 
(Vl, V2. V3, WS. VS, 
V6, V7, V8, V9, VIO, 

Vll, VIZ) 


(Ul, UZ; U3. U4; U5, 
A| U6, U7, U8, U9, U10) 


图 3-27 saveAsObjectFile 算 子 对 RDD 转 换 


3.Scala 集 合 和 数据 类 型 


(1) collect 


collect 相 当 于 toArray，toArray 已 经 过 时 不 推荐 使 用 ，collect 将 分 布 式 的 RDD 返 回 为 一 个 单机 的 scala Array 数 组 。 在 这 个 数组 上 运用 scala 的 函数 式 操作 。 


图 3-28 中 的 左 侧 方 框 代表 RDD 分 区 ， 右 侧 方 框 代 表单 机 内 存 中 的 数组 。 通 过 函数 操作 ， 将 结果 返回 到 Driver 程 序 所 在 的 节点 ， 以 数组 形式 存储 。 


(2) collectAsMap 


collectAsMap 对 (K, V) 型 的 RDD 数 据 返回 一 个 单机 HashMap。 对 于 重复 K 的 RDD 元 素 ， 后 面 的 元 素 覆 盖 前 面 的 元 素 。 


Part-00000 


Part-00001 


图 3-29 中 的 左 侧 方 框 代表 RDD 分 区 ， 右 侧 方 框 代表 单机 数组 。 数 据 通过 collectAsMap 函 数 返回 给 Driver 程 序 计算 结果 ， 结 果 以 HashMap 形 式 存储 。 


collect() 


collectAsMap() 


(3) reduceByKeyLocally 
实现 的 是 先 reduce 再 collectAsMap 的 功能 ， 先 对 RDD 的 整体 进行 reduce 操 作 ， 然 后 再 收集 所 有 结果 返回 为 一 个 HashMap。 


(4) lookup 


下 面 代码 为 lookup 的 声明 。 


lookup (key: K) : Seq[V 


F， 如 果 这 个 RDD 包 含 分 区 器 ， 则 只 会 对 应 处 理 K 所 在 的 分 区 ， 然 后 返回 由 (K,，V) 形 


alue) 型 的 RDD 操 作 ， 返 回 指定 Key 对 应 的 元 素 形 成 的 Seq。 这 个 函数 处 理 优化 的 部 分 在 了 


Lookup 函 数 对 (Key, V. 
区 器 ， 则 需要 对 全 RDD 元 素 进 行 暴力 扫描 处 理 ， 搜 索 指 定 K 对 应 的 元 素 。 


成 的 Seq。 如 果 RDD 不 包含 分 
3-30 中 的 左 侧 方 框 代表 RDD 分 区 ， 右 侧 方 框 代表 Seq， 最 后 结果 返回 到 Driver 所 在 节点 的 应 


中 。 


图 


(5) count 


count 返 回 整个 RDD 的 元 素 个 数 。 内 部 函数 实现 如 下 。 


Def count () : Long-sc.runJob (this, Utils.getIteratorSize ) .sum 


lookup (V1 ) 


在 图 3-31 中 ， 返 回 数据 的 个 数 为 5。 一 个 方块 代表 一 个 RDD 分 区 。 


图 3-30 lookup 对 RDD 转 换 


图 3-31 count 对 RDD 转 换 


(6) top 


top 可 返回 最 大 的 k 个 元 素 。 函 数 定义 如 下 。 


top (num Int) (implicit ord: Ordering[T]) : Array[T] 


相近 函数 说 明 如 下 。 

. top 返回 最 大 的 k 个 元 素 。 

"take 返回 最 小 的 K 个 元 素 。 

“ takeOrdered 返 回 最 小 的 k 个 元 素 ， 并 且 在 返回 的 数组 中 保持 元 素 的 顺序 。 

“ first 相 当 于 top (1) 返回 整个 RDD 中 的 前 k 个 元 素 ， 可 以 定义 排序 的 方式 Drdering[T]。 返 回 的 是 一 个 含 前 k 个 元 素 的 数组 。 
(7) reduce 


reduce 函 数 相当 于 对 RDD 中 的 元 素 进行 reduceLeft 函 数 的 操作 。 函 数 实现 如 下 。 


Some (iter.reduceLeft (cleanF) ) 


reduceLeft 先 对 两 个 元 素 <K，V> 进 行 reduce 函 数 操作 ， 然 后 将 结果 和 和 进 代 器 取出 的 下 一 个 元 素 <K，V> 进 行 reduce 函 数 操作 ， 直 到 和 迭代 器 遍历 完 所 有 元 素 ， 得 到 最 后 结果 。 
在 RDD 中 ， 先 对 每 个 分 区 中 的 所 有 元 素 <K，V> 的 集合 分 别 进行 reduceLeft。 每 个 分 区 形成 的 结果 相当 于 一 个 元 素 <K，V> ， 再 对 这 个 结果 集合 进行 reduceleft 操 作 。 
例如 : 用 户 自 定义 函数 如 下 。 


f; (A, B) => (A._1+"@"+B._1, A._2+B._2) 


图 3-32 中 的 方 框 代表 一 个 RDD 分 区 ， 通 过 用 户 自 定 函 数 f 将 数据 进行 reduce 运 算 。 示 例 最 后 的 返回 结果 为 V1@IJV2U! @U2@U3@U4, 12, 


对 每 个 分 区 进行 reduceLeft 操作 


UlQU2(QU3(QUA, 9 


图 3-32 teduce 算 子 对 RDD 转 换 


(8) fold 


fold 和 reduce 的 原理 相同 ， 但 是 与 reduce 不 同 ， 相 当 于 每 个 reduce 时 ， 迭 代 器 取 的 第 一 个 元 素 是 zeroValue。 


图 3-33 中 通过 下 面 的 用 户 自 定义 函数 进行 fold 运 算 ， 图 中 的 一 个 方 框 代 表 一 个 RDD 分 区 。 读 者 可 以 参照 (7) reduce 函 数理 解 。 


V1.1 对 每 个 分 区 的 结果 形成 的 
v3.2 = V1@V3,3 集合 进行 reduceLeft 操作 
VI@V3@UI@U2@U3@U4, 12 


fold ( "voe", 2) ) ( (A, B) => (A. 1+"@"+B. 1, A. 24B. 2) ) 


对 每 个 分 区 reduceLeft 


V0O@UI1@U2@U3@ 
|) U4, 11 


图 3-33 fold 算 子 对 RDD 转 换 


(9) aggregate 


aggregate 先 对 每 个 分 区 的 所 有 元 素 进 行 aggregate 操 作 ， 再 对 分 区 的 结果 进行 fold 操 作 。 


对 每 个 分 区 的 结果 形成 


Vo@V1@V3, 
— @ : Q 的 集合 reduceLeft 


VO@VO@VI@V2@VO@ 
U1QQU2(QU3(QUA, 18 


区 中 需要 进行 串 行 处 理 ， 每 个 分 


aggreagate 与 fold 和 reduce 的 不 同 之 处 在 于 ，aggregate 相 当 于 采用 归并 的 方式 进行 数据 聚集 ， 这 种 聚集 是 并 行 化 的 。 而 在 fold 和 reduce 函 数 的 运算 过 程 中 ， 每 个 分 
串 行 计算 完 结果 ， 结 果 再 按 之 前 的 方式 进行 聚集 ， 并 返回 最 终 聚 集结 果 。 


函数 的 定义 如 下 。 


风 


aggregate[B] (z: B) (seqop: (B, A) => B, combop: (B, B) => B): B 


图 3-34 通 过 用 户 自 定义 函数 对 RDD ”进行 aggregate 的 聚集 操作 ， 图 中 的 每 个 方 框 代 表 一 个 RDD 分 区 。 


rdd.aggregate ("VO@", 2) ( (A, B) => (A._1+"@"+B._1, A. 2+B. 2) ) ， 
(A, B) => (A. 1+"@"+B 1, A. @+B .2) ) 


最 后 ， 介 绍 两 个 计算 模型 中 的 两 个 特殊 变 


广播 (broadcast) 变量 : 其 广泛 用 于 广播 Map Side Join 中 的 小 表 ， 以 及 广播 大 变量 等 场景 。 这 些 数据 集合 在 单 节 点 内 存 能 够 容纳 ， 不 需要 像 RDD 那 样 在 节点 之 间 打 散 存 储 。Spark 运 行 时 把 广播 变量 
数据 发 到 各 个 节点 ， 并 保存 下 来 ， 后 续 计 算 可 以 复 用 。 相 比 Hadoop 的 distributed cache， 广 播 的 内 容 可 以 跨 作 业 共 享 。Broadcast 的 底层 实现 采用 了 BT 机 制 。 有 兴趣 的 读者 可 以 参考 论文 站。 


对 每 个 分 区 进行 reduceLeft 操作 


对 每 个 分 区 的 结果 形成 的 进 

VO@Vi@V3 行 集合 reduceLeftr 操作 
VO@VOMVI1I@V3@VO 
(QU1(QU2(QUS3(QUA, 18 


VO@UI1@U2@U3@ 
U4, 11 


3-94 aggregate 算 子 对 RDD 转 换 


四 代表 V。 


GS AU. 


accumulatorz:&: 允许 做 全 局 累加 操作 ， 如 accumulator 变 量 广泛 使 用 在 应 用 中 记录 当前 的 运行 指标 的 情景 。 


[1] @ 代 表 数 据 的 分 隔 符 ， 可 替换 为 其 他 分 隔 符 。 


[2] 参见 : Mosharaf Chowdhury, Performance and Scalability of Broadcast in Spark o 


34 本章 小 结 


本 章 主要 介绍 了 Spark 的 计算 模型 ，Spark 将 应 用 程序 整体 翻译 为 一 个 有 向 无 环 图 进行 调度 和 执行 。 相 比 MapReduce，Spark 提 供 了 更 加 优化 和 复杂 的 执行 流 。 


读者 还 可 以 深入 了 解 Spark 的 运行 机 制 与 Spark 算 子 ， 这 样 能 更 加 直观 地 了 解 API 的 使 用 。Spark 提 供 了 更 加 丰富 的 函数 式 算 子 ， 这 样 就 为 Spark 上 层 组 件 的 开发 商定 了 坚实 的 基础 。 


通过 阅读 本 章 ， 读 者 可 以 对 Spark 计 算 模型 进行 更 为 宏观 的 把 握 。 相 信 读 者 还 想 对 Spark 内 部 执行 机 制 进行 更 深入 的 了 解 ， 下 面 章节 就 对 Spark 的 内 核 进行 更 深入 的 剖析 。 


第 4 章 Spark 工作 机 制 详 解 


通过 前 一 章 的 介绍 ， 读 者 对 Spark 的 计算 模型 有 了 全 面 的 把 握 ， 本 章 将 深入 介绍 Spark 的 内 部 运行 机 制 。Spark 的 主要 模块 包括 调度 与 任务 分 配 、I/O 模 块 、 通 信 控 制 模块 、 容 错 模块 以 及 Shuffle 模 块 。 
Spark 按 照应 用 、 作 业 、Stage 和 Task 几 个 层次 分 别 进 行 调度 ， 采 用 了 经 典 的 FIFO 和 FAIR 等 调度 算法 。 在 Spark 的 MO 中 ， 将 数据 以 块 为 单位 进行 管理 ， 需 要 处 理 的 块 可 以 存储 在 本 机 内 存 、 磁 盘 或 者 集群 中 
的 其 他 机 器 中 。 集 群 中 的 通信 对 于 命令 和 状态 的 传递 极为 重要 ，Spark 通 过 AKKA 框 架 进行 集群 消息 通信 。 分 布 式 系统 中 的 容错 十 分 重要 ，Spark 通 过 Lineage (血统 ) 和 Checkpoint 机 制 进行 容错 性 保证 。 
最 后 介绍 Spark 中 的 Shuffle 机 制 ， 虽 然 Spark 也 借鉴 了 MapReduce 模 型 ， 但 其 对 Shuffle 机 制 进行 了 创新 与 优化 。 下 面 开始 Spark 内 部 运行 机 制 的 探索 。 


4.1 Spark 应 用 执行 机 制 | 


下 面 介绍 Spark 的 应 用 执行 机 制 。 


41.1. Spark 执行 机 制 总 览 


Spark 应 


Master or 


ResourceManager 


资源 管理 


Worker [s] Master E 册 资源 
I 
| 


Executorl 


ExecutorN 


提交 后 经 历 了 一 系列 的 转换 ， 最 后 成 为 Task 在 每 个 节点 上 执行 。Spark 应 | 
转化 为 stage DAG， 每 个 Stage 中 产生 相应 的 Task 集 合 ，TaskScheduler 将 任务 分 发 到 Executor 执 行 。 每 个 任务 对 应 相应 的 一 个 数据 块 ， 使 


转换 ( 见 图 4-1) 


: RDD 的 Action 算 子 触发 Job 的 提交 ， 提 交 到 Spark 中 的 Job 生 成 RDD DAG， 由 DAGScheduler 


户 定义 的 函数 处 理 数据 块 。 


Spark Context 


Stage DAG 
DAGScheduler: 


将 RDD DAG 分 
fit y StageDAG 


Task Scheduler 


任 


Executorl 


` ExecutorN 


图 4-1 Spatrk 应 用 转换 流程 


Executorl 


ExecutorN 


务 调度 与 分 发 


Spark 执 行 的 底层 实现 原理 ， 如 图 4-2 所 示 。 在 Spark 的 底层 实现 中 ， 通 过 RDD 进 行 数据 的 管理 ，RDD 中 有 一 组 分 布 在 不 同 节点 的 数据 块 ， 当 Spark 的 应 用 在 对 这 个 RDD 进 行 操作 时 ， 调 度 器 将 包含 操作 
的 任务 分 发 到 指定 的 机 器 上 执行 ， 在 计算 节点 通过 多 线程 的 方式 执行 任务 。 一 个 操作 执行 完毕 ，RDD 便 转换 为 另 一 个 DD， 这 样 ， 


执行 的 方式 执行 ， 即 只 有 操作 累计 到 Action (行动 ) ， 算 子 才 会 触发 整个 操作 序列 的 执行 ， 中 间 结 果 不 会 单独 再 


户 的 操作 依次 执行 。Spark 为 了 系统 的 内 存 不 至 于 快速 


完 , 使 


延迟 


新 分 配 内 存 ， 而 是 在 同一 个 数据 块 上 进行 流水 线 操作 。 


在 集群 的 程序 实现 上 ， 有 一 个 重要 的 分 布 式 数据 结构 ， 即 弹性 分 布 式 数 据 集 (Resilient Distributed Dataset, RDD) 。Spark 实 现 了 分 布 式 计算 和 任务 处 理 ， 并 实现 了 任务 的 分 发 、 跟 踪 、 执 行 等 工 


作 ， 最 终 聚 合 结果 ， 完 成 Spark 应 


的 计算 。 


对 RDD 的 块 管理 通过 BlockManger 完 成 ，BlockManager 将 数据 抽象 为 数据 块 ， 在 内 存 或 者 磁盘 进行 存储 ， 如 果 数 据 不 在 本 节点 ， 


则 还 可 以 通过 远 端 节 点 复制 到 本 机 进行 计算 。 
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图 4-2 ”Spatk 执 行 底层 实现 


在 计算 节点 的 执行 器 Executor 中 会 创建 线程 池 ， 这 个 执行 器 将 需要 执行 的 任务 通过 线程 池 并 发 执行 。 


4.1.2 Spark 应 用 的 概念 


Spark 应 用 (Application) 是 用 户 提 交 的 应 用 程序 。 执 行 模式 有 Local、Standalone、YARN、Mesos。 根 据 Spark Application 的 Driver Program 是 否 在 集群 中 运行 ，Spark 应 用 的 运行 方式 又 可 以 分 
为 Cluster 模 式 和 Client 模 式 。 图 4-3 为 Application 包 含 的 组 件 。 


应 用 的 基本 组 件 如 下 。 


- Application: 用 户 自 定 义 的 Spark 程 序 ， 用 户 提交 后 ，Spatk 为 App 分 配 资源 ， 将 程序 转换 并 执行 。 


* Driver Program: 运行 Application 的 main () 函数 并 创建 SparkContext。 


: RDD Graph: RDD 是 Spark 的 核心 结构 ， 可 以 通过 一 系列 算 子 进行 操作 (主要 有 Transformation 和 Action 操 作 ) 。 当 RDD 遇 到 Action 算 子 时 ， 将 之 前 的 所 有 算 子 形成 一 个 有 向 无 环 图 (DAG) ， 也 就 是 图 
中 的 RDD Graph。 再 在 Spatk 中 转化 为 Job， 提 交 到 集群 执行 。 一 个 App 中 可 以 包含 多 个 Job。 


Job: 一 个 RDD Graph 和 触发 的 作业 ， 往 往 由 Spark Action 算 子 触 发 ， 在 SparkContext 中 通过 runJob 方 法 向 Spatk 提 交 Job。 
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图 4-3 Spark Application 基 本 组 件 


“ Stage: 每 个 Job 会 根据 RDD 的 宽 依 赖 关 系 被 切 分 很 多 Stage， 每 个 Stage 中 包含 一 组 相同 的 Task， 这 一 组 Task 也 叫 TaskSet。 


Task: 一 个 分 区 对 应 一 个 Task，Task 执 行 RDD 中 对 应 Stage 中 包含 的 算 子 。Task 被 封装 好 后 放 入 Executor 的 线程 池 中 执行 。 


4.1.3 ”应 用 提交 与 执行 方式 


应 用 的 提交 包含 以 下 两 种 方式 。 
“ Driver 进 程 运行 在 客户 端 ， 对 应 用 进行 管理 监控 。 


“ 主 节点 指定 某 个 Worketr 节 点 启动 Driver， 负 责 整 个 应 用 的 监控 。 


Driver 进 程 是 应 用 的 主 控 进 程 ， 负 责 应 用 的 解析 、 切 分 Stage 并 调度 Task 到 Executor 执 行 ， 包 含 DAGScheduler 等 重要 对 象 。 下 面具 体 介 绍 这 两 种 方式 的 原理 。 


1.Driver 在 客户 端 运 行 


例如 ， 执 行 Spark 自 带 的 样 例 程序 : ./bin/run-example org.apache.spark.examples.SparkTC spark: //UserHostIP: port, 


应 用 执行 和 控制 如 图 4-4 所 示 。 
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图 4-4 Spark Driver 位 于 Client 


作业 执行 流程 描述 如 下 。 


户 启动 客户 端 ， 之 后 客户 端 运 行 用 户 程序 ， 启 动 Driver 进 程 。 在 Driver 中 启动 或 实例 化 DAGScheduler 等 组 件 。 客 户 端的 Driver 向 Master 注 册 。 


Worker 向 Master 注 册 ，Master 命 令 Worker 启 动 Exeuctor。Worker 通 过 创建 ExecutorRunner 线 程 ， 在 ExecutorRunner 线 程 内 部 启动 ExecutorBackend 进 程 。 


ExecutorBackend 启 动 后 ， 向 客户 端 Driver 进 程 内 的 SchedulerBackend 注 册 ， 这 样 Driver 进 程 就 能 找到 计算 资源 。Driver 的 DAGScheduler 解 析 应 用 中 的 RDD DAG 并 生成 相应 的 Stage， 每 个 Stage 包 
含 的 TaskSet 通 过 TaskScheduler 分 配给 Executor。 在 Executor 内 部 启动 线程 池 并 行 化 执行 Task。 


2.Driver 在 Worker 运 行 


如 果 Driver 在 Worker 启 动 执行 需要 通过 org.apache.spark.deploy.Client 类 执行 应 用 ， 命 令 如 下 。 


./bin/spark-class org.apache.spark.deploy.Client launch spark: //UserHostlP: port 
file: //your jar org.apache.spark.examples.SparkTC spark: //UserHostIP: port 


应 用 提交 与 执行 机 制 如 图 4-5 所 示 。 


应 用 执行 流程 如 下 。 


1) 启动 客户 端 ， 客 户 端 提 交 应 用 程序 给 Master。 


2) Master 调 度 应 用 ， 针 对 每 个 应 用 分 发 给 指定 的 一 个 Worker 启 动 Driver， 即 Scheduler-Backend。Worker 接 收 到 Master 命 令 后 创建 DriverRunner 线 程 ， 在 DriverRunner 线 程 内 创建 
SchedulerBackend 进 程 。Driver 充 当 整 个 作业 的 主 控 进 程 。Master 会 指定 其 他 Worker 启 动 Exeuctor， 即 ExecutorBackend 进 程 ， 提 供 计 算 资源 。 流 程 和 上 面 很 相似 ，Worker 创 建 ExecutorRunner 线 


程 ，ExecutorRunner 会 启动 ExecutorBackend 进 程 。 


Client ( Driver) 
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图 4-5 Spark Driver 位 于 Worker 节 点 的 应 用 提交 与 执行 机 制 


3) ExecutorBackend 启 动 后 ， 向 Driver 的 SchedulerBackend 注 册 ， 这 样 Driver 获 取 了 计算 资源 就 可 以 调度 和 将 任务 分 发 到 计算 节点 执行 。SchedulerBackend 进 程 中 包含 DAGScheduler， 它 会 根据 
RDD 的 DAG 切 分 Stage， 生 成 TaskSet， 并 调度 和 分 发 Task 到 Executor。 对 于 每 个 Stage 的 TaskSet， 都 会 被 存放 到 TaskScheduler 中 。TaskScheduler 将 任务 分 发 到 Executor， 执 行 多 线程 并 行 任务 。 


42 Spark 调 度 与 任务 分 配 模块 


系统 设计 很 重要 的 一 环 便 是 资源 调度 。 设 计 者 将 资源 进行 不 同 粒度 的 抽象 建 模 ， 然 后 将 资源 统一 放 入 调度 器 ， 通 过 一 定 的 算法 进行 调度 ， 最 终 达 到 高 吞吐 量 或 者 低 访问 延迟 的 目的 。Spark 的 调度 器 设 
计 精 良 ， 扩 展 性 极 好 ， 为 它 的 后 续 发 展 莫 定 了 很 好 的 基础 。 


Spark 有 多 种 运行 模式 ， 如 Local 模 式 、Standalone 模 式 、YARN 模 式 、Mesos 模 式 。 在 集群 环境 下 ， 为 了 减少 复杂 性 ， 抓 住 系统 主要 脉络 进行 理解 。 本 节 主 要 介绍 Standalone 模 式 中 的 名 词 ， 其 他 运 
行 模式 中 各 角色 实现 的 功能 基本 一 致 ， 只 不 过 是 在 特定 资源 管理 器 下 使 用 略为 不 同 的 名 称 和 调度 机 制 。 


在 Standalone 模 式 下 ， 集 群 启 动 之 后 ， 使 用 ps 命令 在 主 节点 会 看 到 Master 进 程 ， 在 从 节点 会 看 到 Worker 进 程 。 其 中 ，Master 负 责 接收 客户 端 提交 的 作业 ， 管 理 Worker。 提 供 了 Web UI 呈现 集群 运 
行 时 状态 信息 ， 方 便 用 户 诊断 性 能 问题 。 


在 Spark 的 应 用 提交 之 后 ，Spark 调 度 应 用 。 系 统 设计 的 一 个 核心 就 是 调度 。 从 Spark 整 体 上 看 ， 调 度 可 以 分 为 4 个 级 别 ，Application 调 度 、Job 调 度 、Stage 的 调度 、Task 的 调度 与 分 发 。 上 节 已 经 介绍 
了 这 4 个 概念 和 概念 之 间 的 对 应 关系 。 下 面 对 这 4 个 层级 调度 进行 介绍 。 


42.1 ”Spark 应 用 程序 之 间 的 调度 


通过 前 面 的 介绍 ， 读 者 了 解 到 每 个 应 用 拥有 对 应 的 SparkContext.SparkContext 维 持 整个 应 用 的 上 下 文 信息 ， 提 供 一 些 核心 方法 ， 如 runJob 可 以 提交 Job。 然 后 ， 通 过 主 节点 的 分 配 获 得 独立 的 一 组 
Executor JVM 进 程 执行 任务 。Executor 空 间 内 的 不 同 应 用 之 间 是 不 共享 的 ， 一 个 Executor 在 一 个 时 间 段 内 只 能 分 配给 一 个 应 用 使 用 。 如 果 多 用 户 需 要 共享 集群 资源 ， 依 据 集群 管理 者 的 配置 ， 用 户 可 以 通 


过 不 同 的 配置 选项 来 分 配 管理 资源 。 


对 集群 管理 者 来 说 简单 的 配置 方式 就 是 静态 配置 资源 分 配 规则 。 例 如 ， 在 不 同 的 运行 模式 下 ， 


等 。 


1. 调 度 配置 


下 面 根据 不 同 集群 的 运行 模式 配置 调度 []。 


(1) Standalone 


默认 情况 下 ， 
应 用 可 以 在 整个 集 
定 的 可 用 核 数 。 


Mesos 


户 向 以 Standalone 模 式 运行 的 Spark 集 群 提 交 的 应 上 
请 的 CPU core 数 。 注 意 ， 这 个 参数 不 是 控制 | 


户 可 以 通过 配置 文件 中 进行 集群 调度 的 配置 。 配 置 每 个 应 


可 以 使 


使 


户 在 Mesos 上 使 
的 CPU core 的 最 大 


如 果 
可 以 使 


景 下 十 分 有 


， 如 大 量 不 同 


(3) YARN 


当 Spark 运 行 在 YARN 平 台 上 时 ， 用 户 可 | 
被 分 到 的 每 个 Executor 的 内 存 大 小 和 Executor 所 点 


Spark， 并 且 想 要 静态 地 配置 资源 的 分 配 策 | 


户 发 起 请 求 的 场景 。 


民 额 。 同 时 用 户 应 该 对 参数 spark.executor.memory 进 行 配 置 ， 进 而 限制 每 个 Executor 的 内 存 使 
mesos://URL 而 不 配置 spark.mesos.coarse 参 数 为 true， 就 能 以 这 种 方式 执行 ， 使 Mesos 运 行 在 细 粒 度 调度 模型 下 。 在 这 种 模式 下 ， 每 个 Spark 应 
的 一 些 机 器 上 不 再 运行 任务 ， 机 器 处 于 空闲 状态 时 ， 其 他 机 器 可 以 使 


阁 ， 则 可 以 通过 配置 参数 spark.mesos.coarse 为 true， 将 Mesos 配 置 为 粗 粒度 调度 模式 。 然 后 配置 参数 spark.cores.max 来 限 所 


的 最 大 资源 总 量 、 调 度 的 优先 级 


FIFO (先进 先 出 ) 的 顺序 进行 调度 。 每 个 应 用 会 独占 所 有 可 用 节点 的 资源 。 用 户 可 以 通过 配置 参数 spark.cores.max 决 定 一 个 
节点 可 用 多 少 核 。 如 果 用 户 没有 配置 这 个 参数 ， 则 在 standalone 模 式 下 ， 默 认 每 个 应 


可 以 分 配 由 参数 spark.deploy.defaultCores 决 


应 用 


量 。Mesos 中 还 可 以 配置 动态 共享 CPU core 


的 执行 模式 ， 用 户 只 需要 使 有 


这 些 机 器 上 空闲 的 CPU core 来 执行 任务 ， 相 当 于 复 用 空闲 的 CPU 提升 了 资源 利 上 


以 在 YARN 的 客户 端 通过 配置 --num-executors 选 项 控制 为 这 个 应 


注意 : 以 上 3 种 运行 模式 都 不 提供 跨 应 


的 共享 内 存 。 


如 果 


JDBC Server 就 是 这 样 工作 的 ，Spark SQL 在 新 版 本 中 也 会 提供 这 样 的 功能 。 


Shark 的 Github 地 址 为 : https:;//github.com/amplab/shark, 


2.FIFO 的 调度 代码 


最 后 ， 读 者 可 以 参考 下 面 源码 ， 了 解 在 standalone 模 式 中 ， 集 群 是 如 何 完成 应 


private def schedule () ( 


户 想 共享 内 存 数 据 ，Spark 官 网 推荐 


FIFO 的 调度 的 。Spark 的 应 用 接收 提交 和 调 


for (worker <- shuffledWorkers if worker.state == WorkerState.ALIVE) { 


for (driver «- List (waitingDrivers: 


*)9 


{ 


if (worker.memoryFree >= driver.desc.mem && worker.coresFree >= driver.desc.cores) { 


launchDriver (worker, 
waitingDrivers -= driver 
} 
} 
$ 


driver) 


从 源码 中 可 以 看 到 ，Master 先 统计 可 用 资源 ， 然 后 在 waitingDrivers 的 队列 中 通过 FIFO 方 式 为 App 分 配 资源 和 指定 Worker 启 动 Driver 执 行 应 用 。 


[1] A: http://spark.apache.org/docs/latest/job-scheduling.html#scheduling-across-applications o 


4.2.2 ”Spark 应 用 程序 内 Job 的 调度 


在 Spark 应 
SparkContext 中 


程序 内 部 ， 


户 通过 不 同 线程 提交 的 Job 可 以 并 行 运行 ， 
的 runJob 提 交 了 Job。 例 如 ， 通 过 count 的 源码 看 这 个 过 程 。 


ixH 


有 所 说 的 Job 就 是 Spark Action (如 count、collect 等 ) 算 子 触发 的 整个 RDD DAG 为 一 个 Job， 在 实现 上 ， 算 子 中 的 本 质 是 调 有 


def count () : 


其 中 ，sc 就 是 SparkContext 对 象 ， 调 


Long = sc.runJob (this, 


Utils.getIteratorSize ) 


runJob 方 法 提交 Job。 


Spark 的 调度 器 是 完全 线程 安全 的 ， 并 且 


支持 一 个 应 


.sum 


处 理 多 请 求 的 


(1) FIFO 模 式 


在 默认 情况 下 ，Spark 的 调度 器 以 FIFO (先进 先 出 ) 方式 调度 Job 的 执行 ， 如 


类 推 ， 如 果 第 一 个 Job 并 没有 占有 
空余 资源 ， 再 申请 和 分 配 Job。 


例 (如 多 


户 进行 查询 ) 。 


分 配 多 少 个 Executor， 然 后 通过 配置 --executor-memory 及 --executor-cores 来 控制 应 
的 CPU 核 数 。 这 样 便 可 以 限制 用 户 提交 的 应 用 不 会 过 多 的 占用 资源 ， 让 不 同 用 户 能 够 共享 整个 集群 资源 ， 提 升 YARN 吞 吐 量 。 


图 4-6 所 示 。 每 个 Job 被 切 分 为 多 个 Stage。 第 一 个 Job 优 先 获 取 所 有 可 上 
所 有 的 资源 ， 则 第 二 个 Job 还 可 以 继续 获取 剩余 资源 ， 这 样 多 个 Job 可 以 并 行 运行 。 如 果 第 一 个 Job 很 大 ， 占 上 


程序 还 是 会 拥有 独立 和 固定 的 内 存 分 配 ， 但 是 当 应 
率 。 这 种 模式 在 集群 上 再 运行 大 量 不 活跃 的 应 


占 


i] 


户 开 发 一 个 单机 服务 ， 这 个 服务 可 以 接收 多 个 对 同一 个 RDD 的 查询 请 求 ， 并 返回 结果 ， 类 似 的 Shark 
目前 版 本 ，Spark SQL 暂时 使 用 的 Shark Server2 Github 地 址 为 https://github.com/amplab/shark/tree/sparkSql。 


度 的 代码 在 Master.scala 文 件 中 ， 在 schedule () 方法 中 实现 调度 。 


的 资源 ， 接 下 来 第 二 个 Job 再 获取 剩余 资源 。 以 此 
所 有 资源 ， 则 第 二 个 Job 就 需要 等 待 第 一 个 任务 执行 完 ， 释 放 
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TaskScheduler 


Executor Executor 


运行 Task 


Pool (FIFO 模式 ) 


TaskSetManager TaskSetManager 


Executor 


运行 Task 


图 4-6 FIFO 模 式 调度 示意 


读者 可 以 通过 图 示 大 致 了 解 FIFO 模 式 ， 下 面 通过 源码 更 加 深入 地 剖析 FIFO 模 式 。 


private[spark] class FIFOSchedulingAlgorithm extends 
SchedulingAlgorithm ( 
override def comparator (sl: 
/* 执 行 优先 级 */ 
val priorityl = sl.priority 
val priority2 - s2.priority 
var res = math.signum (priorityl - priority2) 
if (res = 0) 
val stageldl = sl.stageId 
val stageld2 = s2.stageId 
/*signum 是 符号 函数 。 功能 是 如 果 参数 为 0， 则 返回 0; 如 果 参 数 大 于 0， 则 返回 1.0; 如 果 参 数 小 于 0， 则 返回 -1.0*/ 
res = math.signum (stageId1 - stageId2) 


Schedulable, s2: Schedulable) : Boolean = { 


} 
if (res« O { 


在 算法 执行 中 ， 先 看 优先 级 ，TaskSet 的 优先 级 是 JoblD， 因 
排序 。 


为 先 提交 的 JoblD 小 ， 所 以 就 会 被 更 优先 地 调度 ， 这 里 相当 于 进行 了 两 


层 排序 ， 先 看 是 否 是 同一 个 Job 的 Taskset， 不 同 Job 之 间 的 TaskSet 先 


最 后 执行 的 stageld 最 小 为 0， 最 先 应 该 执行 的 stageld 最 大 。 但 是 这 里 的 调度 机 制 是 优先 调度 Stageid 小 的 。 在 DAGScheduler 中 控制 Stage 是 否 被 提交 到 队列 中 ， 如 果 还 有 父母 Stage 未 执行 完 ， 则 该 
stage 的 Taskset 不 会 提交 到 调度 池 中 ， 这 就 保证 了 虽然 最 先 做 的 stage 的 id 大 ， 但 是 排序 完 ， 由 于 后 
中 ， 而 Job 调 度 由 FIFO 或 者 FAIR 算 法 调度 。 


的 还 没 提交 到 调度 池 中 ， 所 以 会 先 执行 。 由 此 可 见 ，stage 的 Taskset 调 度 逻辑 主要 在 DAGScheduler 


Job 调 度 的 FIFO 或 FAIR 方 式 是 通过 Pool 类 实现 的 。 在 下 


代码 为 Pool 类 的 实现 、 代 码 通过 taskSetSchedulingAlgorithm 选 择 使 用 FIFO 还 是 FAIR 进 行 Job 调 度 。 


private[spark] class Pool ( 


var taskSetSchedulingAlgorithm: 
schedulingMode match ( 
case SchedulingMode.FAIR => 
new FairSchedulingAlgorithm () 
case SchedulingMode.FIFO => 
new FIFOSchedulingAlgorithm () 


SchedulingAlgorithm = ( 


/* 这 里 是 使 用 调度 算法 的 地 方 ， 实 际 上 通过 调度 算法 进行 了 Job 的 调度 和 Job 内 的 TaskSetManager 的 两 级 调 


度 。 获 取 优 先 级 最 高 的 可 调度 资源 执行 */ 


override def getSortedTaskSetQueue: ArrayBuffer[TaskSetManager] = { 


Var sortedTaskSetQueue = new ArrayBuffer [TaskSetManager] 
val sortedSchedulableQueue = 


/* 使 用 比较 器 进行 排序 */ 
schedulableQueue.toSeq.sortWith (taskSetSchedulingAlgorithm.comparator) 
for (schedulable <- sortedSchedulableQueue) { 
sortedTaskSetQueue ++= schedulable.getSortedTaskSetQueue 


sortedTaskSetQueue 
这 里 是 使 用 调度 算法 的 地 方 ， 实 际 上 通过 调度 算法 进行 了 Job 的 调度 和 Job 内 的 TaskSetManager 的 两 级 调度 。 获 取 优 先 级 最 高 的 可 调度 资源 执行 。 这 里 使 


了 设计 模式 中 的 策略 模式 ， 使 用 FIFO 充 当 


TaskSetManager 的 比较 器 。 


(2) FAIR 模 式 


从 Spark 0.8 版 本 开始 ， 可 以 通过 配置 FAIR 共 享 调度 模式 调度 Job， 如 图 4- 7 月 


F 示 。 在 FAIR 共 享 模式 调度 下 ，Spark 在 多 Job 之 间 以 轮 询 (round robin) 方式 为 任务 分 配 资源 ， 所 有 的 任务 拥有 大 致 相当 
的 优先 级 来 共享 集群 的 资源 。 这 就 意味 着 当 一 个 长 任务 正在 执行 时 ， 短 任务 仍 可 以 分 配 到 资源 ， 提 交 并 执行 ， 并 且 获 得 不 错 的 响应 时 间 。 这 样 就 不 用 像 以 前 一 样 需 


式 很 适合 多 用 户 的 场景 。 用 户 可 以 通过 配置 spark.scheduler.mode 方 式 来 让 应 用 以 FAIR 模 式 调度 。FAIR 调 度 器 同样 支持 将 Job 分 组 加 入 调度 池 中 调度 ， 


树 待 长 任务 执行 完 才 可 以 。 这 种 调度 模 
户 可 以 同时 针对 不 同 优先 级 对 每 个 调度 池 配 置 不 同 


的 调度 权重 


mon 


这 种 方式 允许 更 重要 的 Job 配 置 在 高 优先 级 池 中 优先 调度 。 这 种 方式 借鉴 了 Hadoop 的 FAIR 调 度 模 型 ， 如 图 4-7 所 示 。 


如 果 读 者 对 FAIR 调 度 模式 的 源码 感 兴趣 ， 可 以 参照 FairSchedulingAlgorithm.scala 源 码 了 解 ， 限 于 篇 幅 先 不 在 这 里 介绍 。 


在 默认 情况 下 ， 每 个 调度 池 拥有 相同 的 优先 级 来 共享 整个 集群 的 资源 ， 同 样 default pool 中 的 每 个 Job 也 拥有 同样 优先 级 进行 资源 共享 ， 但 是 在 用 户 创建 的 每 个 资源 池 中 ，Job 是 通过 FIFO 方 式 进行 调度 
的 。 例 如 ， 如 果 每 个 用 户 都 创建 了 一 个 调度 池 ， 这 就 意味 着 每 个 用 户 的 调度 池 将 会 获得 同样 的 优先 级 来 共享 整个 集群 ， 但 是 每 个 用 户 的 调度 池内 部 的 请 求 是 按照 先进 先 出 的 方式 调度 的 ， 后 到 的 请 求 不 能 比 
先 到 的 请 求 更 早 获得 资源 。 


在 没有 外 部 干预 的 情况 下 ， 新 提交 的 任务 放 入 default pool 中 进行 调度 。 如 果 用 户 也 可 以 自 定 义 调 度 池 ， 通 过 在 SparkContext 中 配置 参数 spark.scheduler.pool 创 建 调度 池 。 


/* 假 设 sc 是 SparkContext 变 量 */ 
sc.setLocalProperty ("spark.scheduler.pool",  "pool6") 


这 样 配置 了 这 个 参数 的 线程 每 次 提交 的 任务 都 是 放 入 这 个 池 中 进行 调度 (如 这 个 线程 调用 RDD.collect 或 者 RDD.count 等 action 算 子 ) 。 这 种 调度 池 的 配置 可 以 很 方便 地 让 同一 个 用 户 在 一 个 线程 中 运行 
多 个 Job。 如 果 用 户 不 想 再 使 用 这 个 调度 池 ， 可 以 通过 调用 SparkContext 的 方法 来 终止 这 个 调度 池 的 使 用 : 


sc.setLocalProperty ("spark.scheduler.pool6", null) 


Pool (FAIR 模式 ) 


TaskSet TaskSet 
Manager7 Manager8 


TaskSet TaskSet TaskSet 
Manager5 Manager6 Manager9 


TaskSet TaskSet TaskSet TaskSet 
Managerl Manager2 Manager3 Manager4 


Sort (Pool sort and 
TaskSet in Pool sort) 


TaskSet 
Ta dimi l ise TaskSetManager5 Manager7 


TaskScheduler 


| 


轮 询 


运行 Task 运行 Task 


图 4-7 ”FAIR 调度 模型 


(3) 配置 调度 池 


u 


可 以 通过 配置 文件 自 定 义 调度 池 的 属性 。 每 个 调度 池 支 持 下 面 3 个 配置 参数 。 


1) 调度 模式 (schedulingMode) : 用 户 可 以 选择 FIFO 或 者 FAIR 方 式 进行 调度 。 


ai 


2) RÆ (Weight) : 这 个 参数 控制 在 整个 集群 资源 的 分 配 上 ， 这 个 调度 池 相 对 其 他 调度 池 优 先 级 的 高 低 。 例 如 ， 如 果 用 户 配置 一 个 指定 的 调度 池 权 重 为 3， 那 么 这 个 调度 池 将 会 获得 相对 于 权重 为 1 的 
调度 池 3 倍 的 资源 。 


3) minShare: 配置 minShare 参 数 (这 个 参数 代表 多 少 个 CPU 核 ) ， 这 个 参数 决定 整体 调度 的 调度 池 能 给 待 调度 的 调度 池 分 配 多 少 资源 就 可 以 满足 调度 池 的 资源 需求 ， 剩 余 的 资源 还 可 以 继续 分 配给 其 
他 调度 池 。 


可 以 通过 conf/fairscheduler.xml 文 件 配 置 调度 池 的 属性 ， 同 时 需要 在 程序 的 SparkConf 对 象 中 配置 属性 。 


conf.set ("spark.scheduler.allocation.file", "/path/to/file") 


读者 可 以 参考 下 面 官方 文档 的 配置 例子 进行 配置 ， 配 置 文件 的 格式 为 XML。 


<? xml version-"1.0"? > 
«allocations» 

«pool name-"production"» 
XschedulingMode»FAIR«/schedulingMode» 
«weight»l«/weight» 
«minShare»2«/minShare» 

«/pool» 

«pool name="test"> 
XschedulingMode^FIFO«/schedulingMode» 
«weight»2«/weight» 
«minShare»3«/minShare» 

«/pool» 

«/allocations» 


读者 可 以 参考 conf/fairscheduler.xml.template 这 个 模板 文件 ， 文 件 中 提供 了 更 加 全 面 的 配置 介绍 。 


4.2.3 stage 和 TaskSetManager 调 度 方 式 


下 面 介绍 Stage 和 TaskSetManager 的 调度 方式 。 


1.Stage 的 生成 


Stage 的 调度 是 由 DAGScheduler 完 成 的 。 由 RDD 的 有 向 无 环 图 DAG 切 分 出 了 Stage 的 有 向 无 环 图 DAG。Stage 的 DAG 通 过 最 后 执行 的 Stage 为 根 进行 广度 优先 遍历 ， 遍 历 到 最 开始 执行 的 Stage 执 行 ， 
如 果 提 交 的 Stage 仍 有 未 完成 的 父母 stage， 则 Stage 需 要 等 待 其 父 Stage 执 行 完 才能 执行 。 同 时 DAGScheduler 中 还 维持 了 几 个 重要 的 Key-Value 集 合 结构 ， 用 来 记录 stage 的 状态 ， 这 样 能 够 避免 过 早 执行 
和 重复 提交 Stage。waitingStages 中 记录 仍 有 未 执行 的 父母 Stage， 防 止 过 早 执行 。runningStages 中 保存 正在 执行 的 Stage， 防 止 重 复 执行 。failedStages 中 保存 执行 失败 的 Stage， 需 要 重新 执行 ， 这 里 
的 设计 是 出 于 容错 的 考虑 。 


man 


读者 可 以 通过 下 面 DAGScheduler 中 的 源码 进一步 理解 这 个 广度 优先 遍历 过 程 。 


/*waitingStages 存 储 等 待 执行 的 Stage 集 合 */ 
private[scheduler] val waitingStages = new HashSet [Stage] 
/*runningStages 存 储 正在 执行 的 stage 集 合 */ 
private[scheduler] val runningStages = new HashSet [Stage]*/ 
/*failedStages 存 储 执行 失败 的 Stage 集 合 */ 
private[scheduler] val failedStages = new HashSet [Stage] */ 
private def submitStage (stage: Stage) { 
val jobId = activeJobForStage (stage) 
if (jobId.isDefined) { 
logDebug ("submitStage (" + stage + ") ") 
if (! waitingStages (stage) && ! runningStages (stage) && ! failedStages (stage) ) { 
val missing = getMissingParentStages (stage) .sortBy ( .id) 
logDebug ("missi " + missing) = 
if (missin 
logInfo ("Submitting " + stage +" (" + stage.rdd + "), which has no missing parents") 
/*iBS| RUM TÜStage, č staget fes */ 
submitMissingTasks (stage, jobId.get) 
runningStages += stage 
} eise ( 
/* 继 续 遍 历 需 要 执行 的 Stage*/ 
for (parent «- missing) ( 
submitStage (parent) 
} 
waitingStages += stage 
} 
} 
} else { 
abortStage (stage, "No active job for stage " + stage.id) 
} 


} 
/* 在 DAGScheduler 中 通过 pendingTasks 存 储 每 个 Stage 等 待 执行 的 Task 集 合 */ 
private[scheduler] val pendingTasks = new HashMap [Stage， HashSet [Task[_]]] 
/x* 在 submitMissingTasks 方 法 中 提交 任务 */ H 
private def submitMissingTasks (stage: Stage, jobId: Int) { 
logDebug ("submitMissingTasks (" + stage + ") ") 
/* 获取 等 待 执 行 的 任务 ， 并 在 pendingTask 结 构 中 记录 它们 */ 
val myPending = pendingTasks.getOrElseUpdate (stage, new HashSet) 
myPending.clear () 


var tasks = ArrayBuffer[Task[ ]] C 
if (stage.isShuffleMap) { 
for (p <- 0 until stage.numPartitions if stage.outputLocs (p) == Nil) ( 


val locs = getPreferredLocs (stage.rdd, p) 
tasks += new ShuffleMapTask (stage.id, stage.rdd, stage.shuffleDep.get. p, locs) 
l 
) else ( 
/* 这 是 一 个 最 后 阶段 ， 计 算出 作业 缺失 的 分 区 */ 
val job = resultStageToJob (stage) 
for (id «- 0 until job.numPartitions if ! job.finished (id) ) ( 
val partition = job.partitions (id) 
val locs = getPreferredLocs (stage.rdd, partition) 
tasks += new ResultTask (stage.id, stage.rdd, job.func, partition, locs, id) 
} 
} 


/xTaskScheudler 提 交 任务 */ 


taskScheduler.submitTasks ( 
new TaskSet (tasks.toArray, stage.id, stage.newAttemptId () , stage.jobId, properties) ) 


在 TaskScheduler 中 将 每 个 Stage 中 对 应 的 任务 进行 提交 分 和 调度 。 注 意 : 一 个 应 用 对 应 一 个 TaskScheduler， 也 就 是 这 个 应 用 中 所 有 Action 触 发 的 Job 中 的 TaskSetManager 都 是 由 这 个 
TaskScheduler 调 度 的 。 


2.TaskSetManager 的 调度 


结合 上 面 介绍 的 Job 的 调度 和 Stage 的 调度 方式 ， 可 以 知道 ， 每 个 stage 对 应 的 一 个 TaskSetManager 通 过 Stage 回 溯 到 最 源头 缺失 的 stage 提交 到 调度 池 pool 中 ， 在 调度 池 中 ， 这 些 TaskSetMananger 
又 会 根据 Job 1D 排 序 ， 先 提交 的 Job 的 TaskSetManager 优 先 调度 ， 然 后 一 个 Job 内 的 TaskSetManager ID 小 的 先 调度 ， 并 且 如 果 有 未 执行 完 的 父母 stage 的 TaskSetManager， 则 是 不 会 提交 到 调度 池 中 。 


回 


4.24 _ Task 调度 


通过 分 析 下 面 的 源码 ， 读 者 可 以 了 解 Spark 的 Task 的 调度 方式 。 


1. 提 交 任 务 


在 DAGScheduler 中 提交 任务 时 ， 分 配 任务 执行 节点 。 


private def submitMissingTasks (stage: Stage, jobId: Int) { 
logDebug ("submitMissingTasks (" + stage + ") ") 
val myPending = pendingTasks.getOrElseUpdate (stage, new HashSet) 
myPending.clear () 
var tasks = ArrayBuffer[Task[ ]] O 
/* 判 断 是 否 为 Shuffle map stage， 如 果 是 ， 则 这 个 stage 输 出 的 结果 会 经 过 Shuffle 阶 段 作为 下 一 个 stge 的 输入 ， 如 果 是 Result Stage， 则 stage 的 结果 输出 到 Spark 空 间 (如 count O , save O ) */ 
if (stage.isShuffleMap) { 
for (p <- 0 until stage.numPartitions if stage.outputLocs (p) -- Nil) { 
val locs = getPreferredLocs (stage.rdd, p) 
/* 初 始 化 ShuffleMapTask*/ 
tasks += new ShuffleMapTask (stage.id, stage.rdd, stage.shuffleDep.get, p, locs) 
l 
) else ( 
val job = resultStageToJob (stage) 
for (id <- 0 until job.numPartitions if ! job.finished (id) ) ( 
val partition = job.partitions (id) 
val locs = getPreferredLocs (stage.rdd, partition) 
/* 初 始 化 ResultTask*/ 
tasks += new ResultTask (stage.id, stage.rdd, job.func, partition, locs, id) 
} 
) 
val properties = if (jobIdToActiveJob.contains (jobId) ) ( 
jobIdToActiveJob (stage.jobId) .properties 
) else ( 
// this stage will be assigned to "default" pool 
null 


} 
/* 通 过 此 方法 获取 任务 最 佳 的 执行 节点 */ 
private[spark] 
def getPreferredLocs (rdd: RDD[ ], partition: Int): Seq[TaskLocation] = synchronized { 


2 分 配 任务 执行 节点 


1) 如 果 是 调用 过 cache () 方法 的 RDD， 数据 已 经 缓存 在 内 存 ， 则 读 取 内 存 缓存 中 分 区 的 数据 。 


val cached = getCacheLocs (rdd) (partition) 
if (! cached.isEmpty) ( 
return cached 


l 


2) 如 果 直 接 能 获取 到 执行 地 点 ， 则 返回 执行 地 点 作为 任务 的 执行 地 点 ， 通 常 DAG 中 最 源头 的 RDD 或 者 每 个 stage 中 最 开始 的 RDD 会 有 执行 地 点 的 信息 。 例 如 ，HadoopRDD 从 HDFSs 读 出 的 分 区 就 是 最 
好 的 执行 地 点 。 这 里 涉及 Hadoop 分 区 的 数据 本 地 性 问题 ， 感 兴趣 的 读者 可 以 查阅 Hadoop 的 资料 了 解 。 


/*@deprecated ("Replaced by PartitionwiseSampledRDD", "1.0.0") 
private[spark] class SampledRDD[T: ClassTag] C 
override def getPreferredLocations (split: Partition): Seq[String] = 
firstParent[T].preferredLocations (split.asInstanceOf [SampledRDDPartit//ion].prev) */ 
val rddPrefs = rdd.preferredLocations (rdd.partitions (partition) ) .toList 
if (! rddPrefs.isEmpty) ( 
return rddPrefs.map (host -» TaskLocation (host) ) 


3) 如 果 不 是 上 面 两 种 情况 ， 将 遍历 RDD 获 取 第 一 个 窄 依赖 的 父亲 RDD 对 应 分 区 的 执行 地 点 。 


rdd.dependencies.foreach ( 
case n: NarrowDependency[ ] => 
for (inPart «- n.getParents (partition) ) ( 


获取 到 子 RDD 分 区 的 父母 分 区 的 集合 ， 再 继续 深度 优先 遍历 ， 不 断 获 取 到 这 个 分 区 的 父母 分 区 的 第 一 个 分 区 ， 直 到 没有 Narrow Dependency。 可 以 通过 
分 区 的 位 置 。 


IR] 


4-8 看 到 RDD2 的 p0 分 区 位 置 就 是 RDD0 中 p0 


val locs = getPreferredLocs (n.rdd， inPart) 
if (locs ! = Nil) { 
return locs 


如 果 是 Shuffle Dependency， 由 于 在 stage 之 间 需 要 进行 Shuffle， 而 分 区 无 法 确定 ， 所 以 无 法 获取 分 区 的 存储 位 置 。 这 表示 如 果 一 个 Stage 的 父母 Stage 还 没 执行 完 ， 则 子 Stage 中 的 Task 不 能 够 获得 
执行 位 置 。 


4-8 分 区 获取 Prefer 位 置 


整体 的 Task 分 发 由 Taskschedulerlmpl 来 实现 ， 但 是 Task 的 调度 (本 质 上 是 Task 在 哪个 分 区 执行 ) 逻辑 由 TaskSetManager 完 成 。 这 个 类 监控 整个 任务 的 生命 周期 ， 当 任务 失败 时 (如 执行 时 间 超过 一 
定 的 阔 值 ) ， 重 新 调度 ， 也 会 通过 delay scheduling 进 行 基于 位 置 感知 (locality-aware) 的 任务 调度 。TaskSchedulerlImpl 类 有 几 个 主要 接口 : 接口 resourceOffer， 作 用 为 判断 任务 集合 是 否 需要 在 一 个 
节点 上 运行 。 接 口 statusUpdate， 其 主要 作用 为 更 新 任务 状态 。 


任务 的 locality 由 以 下 两 种 方式 确定 。 


1) RDD DAG 源 头 有 HDFS 等 类 型 的 分 布 式 存储 ， 它 们 内 置 的 数据 本 地 性 决定 (RDD 中 配置 preferred location 确 定 ) 数据 存储 位 置 和 分 区 的 选取 。 


2) 每 个 其 他 非 源头 Stage 由 于 都 要 进行 Shuffle， 所 以 地 址 以 在 resourceoffer 中 进行 round robin 来 确定 ， 初 始 提交 Stage 时 ， 将 prefer 的 位 置 设置 为 Nil。 但 在 Stage 调 度 过 程 中 ， 内 部 是 通过 Narrow 
dep 的 祖先 Stage 确 定 最 佳 执 行 位置 的 。 这 样 相当 于 每 个 RDD 的 分 区 都 有 prefer 执 行 位置 。 


43 Spark I/O 机 制 


Spark 的 I/O 由 传统 的 I/O 演 化 而 来 ， 但 又 有 所 不 同 。 
“ 单机 计算 机 系统 中 ， 数 据 集 中 化 ， 结 构 化 数据 、 半 结构 化 数据 、 非 结构 化 数据 都 只 存储 在 一 个 主机 中 ， 而 Spatk 中 的 数据 分 区 是 分 散在 多 个 计算 机 系统 中 的 。 
' 传统 计算 机 数据 量 小 。Spatk 需 要 处 理 TB、PB 级 别 的 数据 。 


这 样 会 产生 一 些 问 题 ，Spark 进 行 |/O 不 仅 要 考虑 本 地 主机 的 I/O 开 销 ， 还 要 考虑 数据 在 不 同 主机 之 间 的 传输 开销 。 同 时 Spark 对 数据 的 寻 址 方式 也 要 改变 ， 以 应 对 大 数据 的 挑战 。 


4.3.1 序列 化 


序列 化 是 将 对 象 转换 为 字 节 流 ， 本 质 上 可 以 理解 为 将 链表 存储 的 非 连续 空间 的 数据 存储 转化 为 连续 空间 存储 的 数组 中 。 这 样 就 可 以 将 数据 进行 流 式 传输 或 者 块 存储 。 相 反 ， 反 序列 化 就 是 将 字 节 流转 化 
为 对 象 。 


序列 化 主要 有 以 下 两 个 目的 。 


“ 进程 间 通 信 : 不 同 节点 之 间 进 行 数据 传输 。 
“ 数据 持久 化 存储 到 磁盘 : 本 地 节点 将 对 象 写 入 磁盘 。 


Spark 通 过 集中 方式 实现 进程 通信 ， 包 括 Actor 的 消息 模式 、Java NIO 和 netty 的 OIO。 


在 spark 中 ， 序 列 化 拥有 重要 地 位 。 无 论 是 内 存 或 者 磁盘 中 的 RDD 含 有 的 对 象 存储 ， 还 是 节点 间 的 传输 数据 ， 都 需要 执行 序列 化 的 过 程 。 序 列 化 与 反 序列 化 的 速度 、 序 列 化 后 的 数据 大 小 等 都 影响 数据 
传输 的 速度 ， 以 致 影响 集群 的 计算 效率 。Spark 可 以 使 用 java 的 序列 化 库 ， 也 可 以 使 用 Kyro 序 列 化 库 。Kyro 具 有 上 紧凑、 快速、 轻 量 的 优点 ， 多 许 自 定义 序列 化 方法 ， 且 扩展 性 很 好 。 下 面 用 户 可 以 通过 表 4-1 
参数 进行 序列 化 配置 。 


表 4-1 序列 化 参数 简介 


序列 化 方式 说 明 


org.apache.spark.serializer. 


spark.closure.serializer 用 于 闭 包 的 序列 化 大 


JavaSerializer 


序列 化 方式 参数 说 明 

使 用 JavaSerializer 序列 化 名 ， 序 列 化 i 会 缓冲 
对 象 ， 以 防止 写 入 元 余数 据 ， 通 过 Reset 参数 设 定 
spark.serializer.objectStreamReset 10000 垃圾 回收 这 些 缓存 对 象 的 靖 值 。 如 果 不 使 用 缓存 
对 象 ， 则 将 值 设 定 为 <0。 软 认 设 定 为 10000， 表 
示人 允许 达到 10000 对 象 再 进行 回收 

当 使 用 kyro 序列 EaR 追踪 对 相同 对 象 的 引 
spark.kryo.referenceTracking true 用 ， 这 样 能 够 对 引用 多 次 的 对 象 只 存储 一 份 ， 减 
少 空间 占用 

Kyro 序列 化 硕 中 的 缓冲 区 大 小 ， 其 大 小 应 该 大 

于 人 允许 创建 的 对 象 的 最 大 空间 占用 


N 


spark.kryoserializer.buffer.mb 


其 他 详细 介绍 会 在 性 能 调 优 章 节 介绍 。 


4.3.2 ”压缩 


当 大 片 连续 区 域 进行 数据 存储 并 且 存 储 区 域 中 数据 重复 性 高 的 状况 下 ， 数 据 适 合 进行 压缩 。 数 组 或 者 对 象 序列 化 后 的 数据 块 可 以 考虑 压缩 。 所 以 序列 化 后 的 数据 可 以 压缩 ， 使 数据 紧缩 ， 减 少 空间 开 


1.Spark 对 压缩 方式 的 选择 


压缩 采用 了 两 种 算法 : Snappy 和 LZF， 底 层 分 别 采 用 了 两 个 第 三 方 库 实现 ， 同 时 可 以 自 定义 其 他 压缩 库 对 Spark 进 行 扩展 。Snappy 提 供 了 更 高 的 压缩 速度 ，LZF 提 供 了 更 高 的 压缩 比 ， 用 户 可 以 根据 
体 需求 选择 压缩 方式 。 


压缩 格式 及 解 编码 器 如 下 。 
* LZF: org.apache.spark.io.LZFCompressionCodec « 


* Snappy: org.apache.spark.io.SnappyCompressionCodec o 


压缩 算法 的 对 比 ， 如 图 4-9 所 示 。 


(1) Ning-Compress 


Ning-compress 是 一 个 对 数据 进行 LZF 格 式 压缩 和 解压 缩 的 库 ， 这 个 库 是 Tatu Saloranta (tatu.saloranta@iki.fi) 书写 的 。 用 户 可 以 在 Github 地 址 : https://github.com/ning/compress 下 载 ， 进 行 
学 习 和 研究 。 


(2) snappy-java 


Snappy 算 法 的 前 身 是 Zippy， 被 Google 用 于 MapReduce、BigTable 等 许多 内 部 项 目 。snappy-java 由 谷歌 开发 ， 是 以 C++ 开 发 的 Snappy 压 缩 解压 缩 库 的 Java 分 支 。Github 地 址 为 : 


https://github.com/xerial/snappy-java。 


Snappy 的 目标 是 在 合理 的 压缩 量 情况 下 ， 提 供 高 压缩 速度 的 库 。 因 此 Snappy 的 压缩 比 和 LZF 差 不 多 ， 并 不 是 很 高 。 根 据 数 据 集 的 不 同 ， 压 缩 比 能 达到 20%~100%。 有 兴趣 的 读者 可 以 看 一 个 压缩 算法 
Benchmark， 它 对 基于 JVM 运 行 语言 的 压缩 库 进 行 对 比 。 这 个 Benchmark 对 snappy-java 和 其 他 压缩 工具 LZO-java/LZF/QuickLZ/Gzip/Bzip2 进 行 了 比较 。 地 址 为 Github: 
https://github.com/ning/jvm-compressor-benchmark/wiki。 这 个 Benchmark 是 由 Tatu Saloranta@cotowncoder 开 发 的 。 


Snappy 通 常 在 达到 相当 压缩 的 情况 下 ， 要 比 同类 的 LZO、LZF、FastLZ 和 QuickLZ 等 快速 的 压缩 算法 快 。 它 对 纯 文本 的 压缩 比 大概 是 1.5~1.7x， 对 HTML 网 页 是 2~4X， 对 图 片 等 二 进 制 数据 基本 没有 压 
缩 ， 为 1x。 


Snappy 分 别 对 64 位 和 32 位 处 理 器 进行 了 优化 ， 不 论 是 32 位 处 理 ， 还 是 64 位 处 理 器 ， 都 能 达到 很 高 的 效率 。 据 官方 介绍 ，Snappy 经 过 PB 级 别 的 大 数据 的 考验 ， 稳 定性 方面 没有 问题 ，Google 的 map 
reduce、rpc 等 很 多 框架 都 用 到 了 Snappy 压 缩 算法 。 


压缩 是 在 时 间 和 空间 上 的 一 种 权衡 。 更 长 的 压缩 和 解压 缩 时 间 会 节省 更 多 的 空间 。 而 空间 占用 少 意味 着 可 以 缓存 更 多 的 数据 ， 节 省 MO 时 间 和 网 络 传输 时 间 。 不 同 的 压缩 算法 是 在 不 同情 境 的 一 种 权衡 ， 
而 且 对 不 同 数据 类 型 文件 进行 压缩 又 会 产生 差异 。 可 以 参考 图 4-9， 对 不 同 算法 的 使 用 进行 权衡 。 


Compressed Compression Decompression 

size Mbyte/s Mbyte/s 
QuickLZ C 1.5.0 47.9% 308 358 
QuickLZ C 1.5.0 42.3% 131 309 
QuickLZ C 1.5.0 40.0% 31 516 
QuickLZ C£ 1.5.0 47.93 133 132 
QuickLZ Java 1.5.0 47.953; 127 95 
LZF 3.1 54.953; 204 396 
LZF 3.1 F 51.9% 384 
FastLZ 0.1.0 53.0% 442 
FastL7 0.1.0 50.7% 
LZO 1X 2.02 1 48.35 
zlib 1.22 1 37.6% 

Core i7 920 benchmark. Details 


Library Level 


图 4-9 压缩 方式 对 比 


2. 在 Spark 程 序 中 使 用 压缩 


户 可 以 通过 下 面 两 种 方式 配置 压缩 。 


(1) 在 Spark-env.sh 文 件 中 配置 


户 可 以 在 启动 前 配置 文件 spark-env.sh 设 定 压缩 配置 的 参数 。 


export SPARK JAVA OPTS-"-Dspark.broadcast.compress" 


(2) 在 应 用 程序 中 配 


sc 是 SparkContext 对 象 ，conf 是 SparkConf 对 象 。 


val conf=sc.getConf 


1) 获取 压缩 的 配置 。 


conf.getBoolean ("spark.broadcast.compress", true) 


2) 压缩 的 配置 。 


conf.set ("spark.broadcast.compress", true) 


其 他 参数 如 表 4-2 所 示 。 


表 4-2 压缩 配置 的 其 他 参数 


参数 说 明 
TU" 参数 决定 broadcast 变量 是 否 进 行 压 缩 。 通 常 
spark.broadcast.compress T YET MT 
d " 情况 下 压缩 它 是 一 个 好 的 选择 


设置 此 参数 决定 是 否 压缩 一 个 已 经 序列 
化 的 RDD， 用 户 可 以 在 创建 RDD 时 ， 通 过 
StorageLevelMEMORY ONLY SER 设 定 是 ed 
列 化 。 这 样 虽然 耗费 一 些 压缩 时 间 ， 但 是 可 L 
省 大 量 的 内 存 空间 


spark.rdd.compress 


用 户 通 过 这 个 参数 决定 是 采用 LZF， 还 是 
Snappy 压 缩 算法 。LZF 压缩 率 较 高 ，Snappy 的 
压缩 时 间 短 ， 用 户 可 以 根据 需求 ， 进 行 具体 权衡 


org.apache.spark.io. 


spark.io.compression.codec ] 
LZFCompressionCodec 


用 户 通过 这 个 参数 设置 Snappy 压缩 算法 的 块 


spark.10.compression.snappy.block.size 32768 
大 小 


在 分 布 式 计算 中 ， 序 列 化 和 压缩 是 两 个 重要 的 手段 。Spark 通 过 序列 化 将 链 式 分 布 的 数据 转化 为 连续 分 布 的 数据 ， 这 样 就 能 够 进行 分 布 式 的 进程 间 数 据 通信 ， 或 者 在 内 存 进行 数据 压缩 等 操作 ， 提 升 
Spark 的 应 用 性 能 。 通 过 压缩 ， 能 够 减少 数据 的 内 存 占 用 ， 以 及 IO 和 网 络 数据 传输 开销 。 


43.3 ”Spark 块 管理 


RDD 在 逻辑 上 是 按照 Partition 分 块 的 ， 可 以 将 RDD 看 成 是 一 个 分 区 作为 数据 项 的 分 布 式 数组 。 这 也 是 Spark 在 极力 做 到 的 一 点 ， 让 编写 分 布 式 程序 像 编 写 单机 程序 一 样 简单 。 而 物理 上 存储 RDD 是 以 
Block 为 单位 的 ， 一 个 Partition 对 应 一 个 Block， 用 Partition 的 ID 通过 元 数据 的 映射 到 物理 上 的 Block， 而 这 个 物理 上 的 Block 可 以 存储 在 内 存 ， 也 可 以 存储 在 某 个 节点 的 Spark 的 硬盘 临时 目录 ， 等 等 。 


整体 的 |/O 管 理 分 为 以 下 两 个 层次 。 


1) 通信 层 : 1/O 模 块 也 是 采用 Master-Slave 结 构 来 实现 通信 层 的 架构 ，Master 和 Slave 之 间 传 输 控制 信息 、 状 态 信息 。 


2) 存储 层 : Spark 的 块 数据 需要 存储 到 内 存 或 者 磁盘 ， 有 可 能 还 需 传输 到 远 端 机 器 ， 这 些 是 由 存储 层 完成 的 。 


通过 图 4-10， 可 以 大 致 了 解 整个 Spark 存 储 (Store) 模块 。 下 面 从 以 下 几 个 方面 介绍 存储 模块 。 


1. 实 体 和 类 
可 以 从 以 下 几 个 维度 理解 整个 存储 系统 。 


(1) 管理 和 接口 


BlockManager: 当 其 他 模块 要 和 storage 模 块 进行 交互 时 ，storage 模 块 提供 了 统一 的 操作 类 BlockManager， 外 部 类 与 storage 模 块 打 交道 都 需要 调用 BlockManager 相 应 接口 来 实现 。 


Slave Disk Slave Disk 


DiskStore 
(本 地 磁盘 


DiskStore 


Mors Connection 
bp Manager ( 网 Woker (监视 异步 


= eK 传递 络 传输 Block 
状态 , 方法 封装 将 | ”| 读 写 i 法 写 ) 


异步 操作 同步 化 ) 


异步 操作 同步 化 ) 


Memory 
BlockManager Store ( 本 地 
内 存 Block 


BlockManager 读 写 ) 
Master 


BlockManager 
SlaveActor 


Memory 


Store ( 本 地 BlockManager 
内 存 Block 


读 写 ) BlockManager 
Master 


控制 流 ， 状 态 
流传 递 
a i > 
BlockManager BlockManager || BlockManager 
SlaveActor ( Ref) SlaveActor( Ref) || MasterActor 


BlockManager 
Master (提供 针 
对 MasterActor 
方法 让 
BlockManager 的 方法 过 辑 ) 


V 
BlockManager 
Master Actor 


3258 |: RDD iterator 方法 
调用 ， 角 发 块 的 操作 


图 4-10 ”Spatk 存 储 模块 全 景 


(2) 通信 层 
: BlockManagerMasterActor: 从 主 节 点 创建 ， 从 节点 通过 这 个 Actor 的 引用 向 主 节点 传递 消息 和 状态 。 


- BlockManagerSlaveActor: 在 从 节点 创建 ， 主 节点 通过 这 个 Actotr 的 引用 向 从 节点 传递 命令 ， 控 制 从 节点 的 块 读 写 。 


* BlockManagerMaster: 对 Actor 通 信 进 行 管理 。 


(3) 数据 读 写 


Wil 


' DiskStore: 提供 Block 在 磁盘 上 以 文件 形式 读 写 的 功能 。 

: MemoryStore: 提供 Block 在 内 存 中 的 Block 读 写 功能 。 

: ConnectionManager: 提供 本 地 机 器 和 远 端 节点 进行 网 络 传输 Block 的 功能 。 

“ BlockManagerWorker: 对 远 端 数据 的 异步 传输 进行 管理 。 
2.BlockManager 中 的 通信 


主 节点 和 从 节点 之 间 通 过 Actor 传 送 消息 来 传递 命令 和 状态 。 


各 个 类 在 Master 和 Slave 上 所 扮演 的 角色 如 图 4-11 所 示 。 


BlockManger BlockManager 
SlaveActor MasterActor ( Ref) 


BlockMananger BlockManager BlockManager 
SlaveActor ( Ref) MasterActor SlaveActor ( Ref) 


BlockManager BlockMananger 
MasterActor ( Ref) SlaveActor 


图 4-11 Spark 存储 模块 通信 


整体 的 数据 存储 通信 仍 相 当 于 Master-Slave 模 型 ， 节 点 之 间 传 递 消息 和 状态 ，Master 节 点 负责 总 体 控 制 ，Slave 节 点 接收 命令 、 汇 报 状态 。 (补充 介绍 : Actor 和 ref 是 AKKA 中 两 个 不 同 的 Actor 引 用 。 


BlockManager 的 创建 对 于 Master 和 Slave 来 说 有 所 不 同 。 


(1) Master 端 


BlockManagerMaster 对 象 拥有 BlockManagerMasterActor 的 actor 引 用 以 及 所 有 BlockManagerSlaveActor 的 ref 引 用 。 


(2) Slave 端 


对 于 Slave，BlockManagerMaster 对 象 拥有 BlockManagerMasterActor 对 象 的 ref 的 引用 和 自身 BlockManagerSlaveActor 的 actor 的 引用 。BlockManagerMasterActor 在 ref 和 Actor 之 间 通 
信 ，BlockManagerSlaveActor 在 ref 和 Actor 之 间 通 信 。 


BlockManager 在 内 部 封装 BlockManagerMaster， 并 通过 BlockManagerMaster 进 行 通信 。Spark 在 各 节点 创建 各 自 的 BlockManager， 通 过 BlockManager 对 storage 模 块 进行 操作 。 
BlockManager 对 象 在 SparkEnv 中 创建 ，SparkEnv 相 当 于 线程 的 上 线 下 文 变量 ， 在 SparkEnv 中 也 会 创建 很 多 的 管理 组 件 。 例 如 ，connectionManager、broadcastManager、cacheManager 等 的 创建 
过 程 如 下 。 


private[spark] def create ( 
conf: SparkConf, 
executorId: String. 
hostname: String, 

port: Int, 


isDriver: Boolean, 
isLocal: Boolean, 
listenerBus: LivelistenerBus = null): SparkEnv = ( 
mapOutputTracker.trackerActor = registerOrLookup ( 
"MapOutputTracker", 
new MapOutputTrackerMasterActor (mapOutputTracker.asInstanceOf[MapOutputTrackerMaster], conf) ) 
val blockManagerMaster = new BlockManagerMaster (registerOrLookup ( 
"BlockManagerMaster", new BlockManagerMasterActor (isLocal, conf, listenerBus) ) conf) 
/* 创 建 blockManager*/ 
val blockManager = new BlockManager (executorId， actorSystem, blockManagerMaster, 
serializer, conf, securityManager, mapOutputTracker) 
val connectionManager = blockManager.connectionManager 
val broadcastManager = new BroadcastManager (isDriver, conf, securityManager) 
val cacheManager = new CacheManager (blockManager) 
val httpFileServer - 
if (isDriver) { 
val server = new HttpFileServer (securityManager) 
server.initialize () 


conf.set ("spark.fileserver.uri", server.serverUri) 
server 
) else ( 
null 
k 
val metricsSystem = if (isDriver) { 
MetricsSystem.createMetricsSystem ("driver", conf, securityManager) 
) else ( 
MetricsSystem.createMetricsSystem ("executor", conf, securityManager) 


} 

metricsSystem.start () 

val sparkFilesDir: String = if (isDriver) 1{ 
Utils.createTempDir () .getAbsolutePath 

) else ( 


} 
val shuffleManager = instantiateClass[ShuffleManager] ( 
"spark.shuffle.manager", "org.apache.spark.shuffle.hash.HashShuffleManager") 
if (conf.contains ("spark.cache.class") ) { 
logWarning ("The spark.cache.class property is no longer being used! Specify storage " * "levels using the RDD.persist () method instead.") 


new SparkEnv ( 
executorId, 
actorSystem, 
serializer, 
closureSerializer, 
cacheManager, 
mapOutputTracker, 
shuffleManager, 
broadcastManager, 
blockManager. 
connectionManager, 
securityManager, 
httpFileServer, 
sparkFilesDir, 
metricsSystem, 
conf) 


通信 层 中 涉及 许多 控制 消息 和 状态 消息 的 通信 以 及 消息 处 理 ， 感 兴趣 的 读者 可 以 参照 源码 。 
3. 读 写 流程 


(1) 数据 写 入 


BlockManagerMaster CacheManager 
Master node 


BlockManager 


BlockManagerWorker 


MemoryStore DiskStore ConnectionManager 


图 4-12 ”Spatk 数 据 读 写 
数据 写 入 的 简要 流程 ， 读 取 流程 和 写 入 流程 类 似 。 数 据 写 入 流程 主要 分 为 以 下 几 个 步骤 。 


1) RDD 调 用 compute () 方法 进行 指定 分 区 的 写 入 。 


2) CacheManager 中 调用 BlockManater 判 断 数 据 是 否 已 经 写 入 ， 如 果 未 写 则 写 入 。 


3) BlockManagerrPZir 


[4] 


详细 步骤 如 下 。 


1) 入 口 在 RDD 类 中 通过 compute 方 法 调 


R5 


他 节点 同步 。 


[i] 


4) BlockManager 根 据 存储 级 别 写 入 指定 的 存储 层 。 


BlockManager 向 主 节点 汇报 存储 状态 。 


iterator 方 法 进行 某 个 分 


区 Partition 的 读 写 ，Partition 是 逻辑 概念 ， 在 物理 上 是 一 个 Block。 其 具体 实现 如 下 : 


final def iterator (split: 
if (storagelevel ! = 


Partition, 


context: 


StorageLevel.NONE) ( 


TaskContext) : 


Iterator[T] 


UR 


SparkEnv.get.cacheManager.getOrCompute (this, split, context, storageLevel) 
) else ( 
computeOrReadCheckpoint (split, context) 
} 
} 
2) 在 CacheManager 类 中 ，getOrCompute 方 法 通过 调用 BlockManager 的 put 接 口 来 写 入 数据 。 


我 们 可 以 看 到 ， 在 这 里 有 个 判断 逻辑 ， 它 先 从 内 存 cache 读 取 是 否 有 块 可 以 读 取 ， 如 果 没有 ， 则 需 


进行 RDD 的 计算 ， 通 过 触发 RDD 的 执行 和 块 的 计算 来 加 载 数据 。 其 


体 实现 如 下 : 


def getOrCompute[T] ( 
rdd: RDD[T], 

partition: 
context: 

storageLevel: 

val key = RDDBlockId 


Partition, 
TaskContext, 
Storagelevel) : 


(rdd.id, 


Iterator[T] = 
partition.index) 


logDebug (s"Looking for partition $key") 


blockManager.get (key) 


case None => 


match { 


/* 如 果 BlockManager 中 还 没有 数据 ， 则 将 数据 写 入 BlockManager 中 */ 


val cachedValues = 


updatedBlocks) 


context.taskMetrics.updatedBlocks - 
new InterruptibleIterator (context, 


) 


private def putInBlockManager[T] ( 


^ updatedBlocks ++= blockManager.put (key, values, storageLevel, tellMaster = 


I 
/* 在 BlockManager 中 ， 调 用 put 方 法 */ 


def put ( 
blockId: 
values: 
level: 
tellMaster: 
require (values 
doPut (blockId, 


} 
/* 调 用 doPut 方 法 */ 
private def doPut ( 
blockId: 
data: 
level: 
tellMaster: 


Blockld, 
Iterator [Any], 
StoragelLevel, 
Boolean) : 


! = null, 


Seq[ (BlockId, 
"Values is null") 
level, 


putInBlockManager (key, 


IteratorValues (values) , 


Blockld, 
BlockValues, 
StorageLevel, 

Boolean = true): 


Seq[ (BlockId, 


computedValues, 


Some CupdatedBlocks) 
cachedValues) 


BlockStatus) ] = ( 


tellMaster) 


BlockStatus) ] = ( 


storageLevel, 


true) 


3) 将 写 入 的 数据 与 其 他 Woker 进 行 同步 。 其 


体 实现 如 下 : 


val replicationFuture = 
ByteBufferValues if level.replication > 1 => 
| 二进制 数据 ， 只 是 创建 封装 器 


case b: 


副本 并 不 复 


data match ( 


val bufferView = b.buffer.duplicate () 
Future ( replicate (blockld, 


case _ => null 


} 


var marked = false 


bufferView, 


level) } 


try { 
4) 根据 用 户 设置 的 StorageLevel 来 判断 数据 写 入 哪个 存储 层 。 其 具体 实现 如 下 : 
val (returnValues, blockStore: BlockStore) = ( 
if (level.useMemory) 


(true, memoryStore 


t 
/* 优 先 写 入 内 存 ， 即 设置 useDisk 为 真 ， 如 果 内 存 不 能 存 作 


) 


) else if (level.useOffHeap) { 
/* 写 入 tachyon， 这 样 存储 于 Java Heap 之 外 的 内 存 空间 */ 


re) 
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(false, tachyonSto: 

) else if (level.useDisk) { 
them 
/* 写 入 磁盘 */ 
(level.replication 

) else { 


assert (level == StorageLevel.NONE) 
throw new BlockException ( 


blockld, 
level! ") 


} 


diskStore) 


完 ， 再 写 入 磁盘 */ 


} 
/* 依 据 适用 的 Store 类 写 入 相应 的 存储 ， 这 里 体现 面向 接口 的 编程 */ 
val result = data match ( 
case IteratorValues (iterator) 
blockStore.putValues (blockId, 
case ArrayBufferValues (array) 
blockStore.putValues (blockId, 


case ByteBufferValues (bytes) 


bytes.rewind () 


blockStore.putBytes (blockId, 


) 


=> 


=> 

iterator, level, returnValues) 
=> 

array, level, returnValues) 
bytes, level) 


s"Attempted to put block $blockId without specifying storage 


5) 通知 BlockManagerMaster 有 新 数 # 


居 写 入 ， 在 BlockManagerMaster 中 保存 元 数据 。 代 码 实现 如 下 : 


reportBlockStatus (bl 


ockId, 


putBlockInfo, 


putBlockStatus) 


(2) 数据 读 取 


在 RDD 类 中 ， 通 过 compute 方 法 调用 iterator 读 写 某 个 分 区 (Partition) ， 作 为 数据 读 取 的 入 口 。 分 区 是 逻辑 概念 ， 在 物理 上 是 一 个 数据 块 (block) 。 


final def iterator (split: Partition, context: TaskContext) : Iterator[T] = ( 


if (storagelevel ! = StorageLevel.NONE) { 
SparkEnv.get.cacheManager.getOrCompute (this, split, context, storagelevel) 
) eise ( 


computeOrReadCheckpoint (split, context) 
} 


l 
/* 在 CacheManager 的 getOrCompute 方 法 中 */ 
def getOrCompute[T] (rdd: RDD[T], split: Partition, context: TaskContext， 
StorageLevel: StorageLevel) : Iterator[T] = ( 


本 质 调用 BlockManager 的 get 方 法 获取 数据 */ 
blockManager.get (key) match { 
case Some (values) => 
// Partition is already materialized, so just return its values 
new InterruptibleIterator (context, values.asInstanceOf[Iterator[T]]) 
case None => 


(3) 读 取 逻辑 


通过 下 面 BlockManager 读 取代 码 进入 读 取 逻辑 。 


private[spark] class BlockManager ( 
executorId: String, 
actorSystem:  ActorSystem, 
val master: BlockManagerMaster, 
val defaultSerializer: Serializer, 
maxMemory: Long, 
val conf: SparkConf, 
securityManager: SecurityManager, 
mapOutputTracker: MapOutputTracker) 

extends Logging { 


"def get (blockId: BlockId) : Option[Iterator[Any]] = ( 
/* 如 果 需 要 读 取 的 数据 块 在 本 地 ， 则 返回 本 地 的 数据 块 */ 
val local = getLocal (blockla) 


Jump EUG e Ac, WEHI Fetch) 数据 块 */ 
val remote = getRemote (blockId) 


/如 果 远 端 也 没有 ， 则 数据 块 不 存在 */ 


None 


1) 本 地 读 取 。 


在 本 地 同步 读 取 数 据 块 ， 首 先 看 能 否 在 内 存 读 取 数据 块 ， 如 果 不 能 读 取 ， 则 看 能 否 从 Tachyon 读 取 数 据 块 ， 如 果 仍 不 能 读 取 ， 则 看 能 否 从 磁盘 读 取 数 据 块 。 


private def doGetLocal (blocklId: BlockId, asValues: Boolean): Option[Any] = ( 
val info = blockInfo.get (blockId) .orNull 
if (info ! = null) { 
/* 同 步 读 取 数据 块 */ 


info.synchronized { 


/* 在 内 存 读 取 数据 块 */ 
if (level.useMemory) { 
logDebug ("Getting block " + blockId + " from memory") 
val result = if (asValues) { 
memoryStore.getValues (blockId) 
) else { 
memoryStore.getBytes (blockId) 
} 


} 
/* 在 Tachyon 读 取 数 据 块 */ 
if (level.useOffHeap) { 
logDebug ("Getting block " + blockId + " from tachyon") 
if (tachyonStore.contains (blockId) ) ( 
tachyonStore.getBytes (blockId) match { 
case Some (bytes) => { 
if (! asValues) { 
return Some (bytes) 
) else { 
return Some (dataDeserialize (blockId. bytes) ) 
) 
} 
case None => 
logDebug ("Block " + blockId + " not found in tachyon") 
} 
} 


} 
/* 在 磁盘 读 取 数据 块 */ 
if (level.useDisk) { 
logDebug ("Getting block " + blockId + " from disk") 
val bytes: ByteBuffer = diskStore.getBytes (blockId) match { 
case Some (bytes) => bytes 
case None => 
throw new Exception ("Block " + blockId + " not found on disk, though 
it should be") 


2) 远程 读 取 。 


远程 获取 调用 路 径 ， 然 后 getRemote 调 用 doGetRemote， 通 过 BlockManagerWorker.syncGetBlock 从 远程 获取 数据 。 


private def doGetRemote (blockId: BlockId, asValues: Boolean): Option[Any] = ( 


获取 远 端 数据 块 ， 返 回 data 数 据 块 */ 
val data = BlockManagerWorker.syncGetBlock ( 
GetBlock (blockId) , ConnectionManagerId (loc.host. loc.port) ) 


在 BlockManagerWorker 中 调用 syncGetBlock 获 取 远 端 数据 块 ， 这 里 使 用 Future 模 型。Future 本 身 是 一 种 被 广泛 运用 的 并 发 设计 模式 ， 可 在 很 大 程度 上 简化 需要 数据 流 同步 的 并 发 应 用 开发 。 这 里 


以 java.utilconcurrent.Future 为 例 ， 简 单 介绍 Future 的 具体 工作 方式 。Future 对 象 本 身 可 以 看 做 是 一 个 显 式 的 引用 ， 一 个 对 异步 处 理 结果 的 引 


。 由 于 其 异步 性 质 ， 在 创建 之 初 ， 它 所 引用 的 对 象 可 能 还 


并 不 可 用 (如 尚 在 运算 中 、 网 络 传输 中 或 等 待 中 ) 。 这 时 ， 得 到 Future 的 程序 流程 如 果 并 不 急于 使 用 Future 所 引用 的 对 象 ， 就 可 以 做 其 他 需要 做 的 工作 ， 当 流程 进行 到 需要 Future 背 后 引用 的 对 象 时 ， 可 全 


有 以 下 两 种 情况 。 


第 一 种 情况 : 希望 能 看 到 这 个 对 象 可 用 ， 并 完成 一 些 相关 的 后 续 流程 。 如 果实 在 不 可 用 ， 则 也 可 以 进入 其 他 分 支流 程 。 


第 二 种 情况 : 没有 这 个 结果 ， 则 无 法 执行 下 去 (可 以 设置 超时 进行 时 间 限 制 ) 。 对 于 前 一 种 情况 ， 可 以 通过 调用 Future.isDone () 判断 引用 的 对 象 是 否 就 绪 ， 并 采取 不 同 的 处 理 ; 后 一 种 情况 则 只 需 调 


get () 或 get (long timeout, TimeUnit unit) ， 通 过 同步 阻塞 方式 等 待 对 象 就 绪 。 实 际 运行 期 是 阻塞 ， 还 是 立即 返回 ， 取 决 于 get () 的 调用 时 机 和 对 象 就 绪 的 先后 。Future 模 式 可 以 在 连续 流程 中 满 
足 数据 驱动 的 并 发 需求 ， 这 样 既 获得 了 并 发 执行 的 性 能 提升 ， 又 不 失 连 续 流程 的 简洁 优雅 。 


下 面 通过 SyncGetBlock 方 法 了 解 获取 数据 块 的 方式 。 


def syncGetBlock (msg: GetBlock, toConnManagerlId: ConnectionManagerId) : ByteBuffer = ( 
/* 返 回 responseMessage 对 象 相当 于 是 个 Future*/ 
val responseMessage = connectionManager.sendMessageReliablySync ( 
toConnManagerlId, blockMessageArray.toBufferMessage) 


} 
def sendMessageReliablySync (connectionManagerId: ConnectionManagerId, 
message: Message): Option[Message] = { 
Await.result (sendMessageReliably (connectionManagerId, message), Duration. Inf) 
$ 


在 ConnectionManager 中 ， 通 过 sendMessage 方 法 获取 远 端 数据 ， 通 过 Future 异 步 计算 模型 获取 远 端 读 取 结果 状态 。 


def sendMessageReliably (connectionManagerld: ConnectionManagerId, message: Message) 
Future[Option[Message]] = ( 
val promise = Promise [Option [Message] ] 
val status = new MessageStatus ( 
message, connectionManagerlId, s => promise.success (s.ackMessage) ) 
messageStatuses.synchronized ( 
messageStatuses += ( (message.id, status) ) 
} 
sendMessage (connectionManagerId, message) 
promise.future 


在 sendMessage 方 法 中 : 


private def sendMessage (connectionManagerId: ConnectionManagerId， message: Message) { 


/* 需 要 和 远 端 身份 验证 建立 连接 */ 
connection.getAuthenticated () .synchronized ( 
/* 发 送 消息 */ 
connection.send (message) 
wakeupSelector () 
} 


4 数据 块 读 写 管理 


数据 块 的 读 写 ， 如 果 在 本 地 内 存 存在 所 需 数据 块 ， 则 先 从 本 地 内 存 读 取 ， 如 果 不 存 在 ， 则 看 本 地 的 磁盘 是 否 有 数据 ， 如 果 仍 不 存在 ， 再 看 网 络 中 其 他 节点 上 是 否 有 数据 ， 即 数据 有 3 个 类 别 的 读 写 来 源 。 


(1) MemoryStore 内 存 块 读 写 


通过 源码 可 以 看 到 进行 块 读 写 是 线程 间 同 步 的 。 通 过 entries.synchronized 控 制 多 线程 并 发 读 写 ， 防 止 出 现 异 常 。 


PutBlock 对 象 用 来 确保 只 有 一 个 线程 写 入 数据 块 。 这 样 确保 数据 读 写 且 线程 安全 的 。 示 例 代 码 如 下 : 


private val putLock = new Object O 


内 存 Block 块 管理 是 通过 链表 来 实现 的 ， 如 图 4-13 所 示 。 


private val entries = new LinkedHashMap[BlockId, MemoryEntry] (32, 0.75f, true) 


图 4-13 ”MemoryStore 数 据 存储 格式 


MemoryStroe 内 存 快 读 写 示例 代码 如 下 所 示 。 通 过 getValues 等 方法 为 入 口 进 行 数据 块 的 同步 读 ， 通 过 trytoPut 等 方法 为 入 口 进行 数据 块 的 同步 写 。 


/* 读 取 内 存 数据 块 */ 
override def getValues (blockId: BlockId) : Option[Iterator[Any]] = { 
/* 同 步 读 取 数据 */ 
val entry = entries.synchronized ( 
entries.get (blockId) 


l 
if (entry == null) { 
None 
} else if (entry.deserialized) { 
Some Centry.value.asInstanceOf [ArrayBuffer [Any] ] . iterator) 
} else { 
val buffer = entry.value.asInstanceOf[ByteBuffer].duplicate O /* 实际 并 不 复制 数据 */ 
Some (blockManager.dataDeserialize (blockId, buffer) ) 
} 


l 
/* 内 存 写 入 数据 块 */ 
private def tryToPut ( 
blockId: Blockld, 
value: Any, 
size: Long, 
deserialized: Boolean) : ResultWithDroppedBlocks - ( 


/同步 进行 数据 写 */ 
putLock.synchronized ( 


/* 如 果 有 足够 内 存 空 间 */ 
if (enoughFreeSpace) ( 
val entry = new MemoryEntry (value, size, deserialized) 
/* 互 斥 写 入 entries 容 器 */ 
entries.synchronized ( 
entries.put (blockId, entry) 
currentMemory += size 
} 
val valuesOrBytes = if (deserialized) "values" else "bytes" 
logInfo ("Block $s stored as $s in memory (estimated size $s, free $s) ".format ( 
blockId. valuesOrBytes, Utils.bytesToString (size), Utils.bytesToString 
(£reeMemory) ) ) 
putSuccess - true 
) eise ( 


(2) DiskStore 磁 盘 块 写 入 
在 DiskStore 中 ， 一 个 Block 对 应 一 个 文件 。 在 diskManager 中 ， 存 储 blockld 和 一 个 文件 路 径 映 射 。 数 


写 入 二 进 制 数据 的 具体 实现 代码 如 下 所 示 。 


PutResult = { 


居 块 的 读 写 入 相当 于 读 写 文件 流 。 


override def putBytes (blockId: BlockId, bytes: ByteBuffer, level: StorageLevel) : 


val bytes = bytes.duplicate () 
"val file = diskManager.getFile (blockId) 
/* 获 取 这 个 块 对 应 的 文件 输出 流 */ 


val channel = new FileOutputStream (file) .getChannel 
while (bytes.remaining > 0) ( 


/* 将 数据 块 写 入 文件 */ 
channel.write (bytes) 
} 


44 _ Spark 通信 模块 


Spark 的 Cluster Manager 可 以 有 Local、Sstandalone、Mesos、YARN 等 部 署 模式 。 为 了 研究 Spark 的 通信 机 制 ， 本 节 介绍 Standalone 模 式 ， 


一 步 通 过 源码 了 解 。 


下 面 介绍 分 布 式 通信 的 几 种 方式 。 


(1) RPC (Remote Produce Call) 


其 他 模式 可 以 对 照 此 模式 进行 类 比 ， 感 兴趣 的 读者 可 以 进 


己 编写 底层 通信 本 机 。 通 过 网 络 向 服务 器 发 送 请 求 ， 服 务 器 对 象 接收 参数 后 ， 进 行 处 理 ， 再 把 


RPC 是 远程 过 程 调用 协议 ， 基 于 C/S 模 型 调 有 
处 理 后 的 结果 发 送 回 客户 端 。 


(2) RMI (Remote Method Invocation) 


RMI 和 RPC 一 样 都 是 调用 远程 的 方法 ， 可 以 把 RMI 看 做 是 


(3) JMS (Java Remote Service) 


JMS 是 在 各 个 Java 类 之 间 传 递 消息 的 标准 。 其 支持 P2P 和 pub/stub 两 种 消息 模型 ， 即 点 对 点 和 发 布 订阅 两 种 模型 。 其 优点 在 于 : 支持 异步 通信 、 消 息 生产 者 和 消费 者 奈 合 度 低 。 应 


队列 的 消息 (针对 应 用 程序 的 数据 ) 来 通信 ， 而 无 须 专用 连接 来 连接 它们 。 


(4) EJB (Enterprise Java Bean) 


。 过 程 大 致 可 以 理解 为 本 地 分 布 式 对 象 向 本 机 发 请 求 ， 不 有 


Java 语 言 实现 了 RPC 协 议 。RPC 不 支持 对 象 通信 ， 


务 处 理 ， 安 人 全、 日志、 分 布 式 等 问题 ， 与 此 同时 ，Sun 公 司 也 实现 了 


EJB 是 Java EE 中 的 一 个 规范 ， 该 规范 描述 了 分 布 式 应 用 程序 需要 解决 的 
一 个 特殊 的 Java 类 ， 按 照 Java 服 务 器 接口 定义 ， 放 在 容器 里 可 以 帮助 该 类 管理 


(5) Web Service 


有 务 、 分 布 式 、 安 全 等 ， 只 有 大 型 分 布 式 系统 才 


支持 对 象 传输 ， 这 也 是 RMI 相 比 于 RPC 的 优越 之 处 。 


程序 通过 读 写 出 入 


己 颁 布 一 个 标准 。 EJB 是 


自己 定义 的 这 一 个 标准 ， 相 当 了 
到 EJB， 一 般 小 型 程序 不 会 用 到 。 


Web Service 是 网 络 间 跨 语言 、 


4.4.1 ”通信 框架 AKKA 


于 编写 Actor 应 


Spark 在 模块 间 通 信使 用 的 是 AKKA 框 架 。AKKA 基 于 Scala 开 发 ， 


Actors 是 一 些 包含 状态 和 行为 的 对 象 。 它 们 通过 显 式 传递 消息 来 进行 通信 ， 这 些 消息 会 被 发 送 到 它们 的 收 件 箱 中 (消息 队列 ) 。 
可 以 根据 需要 做 出 各 种 响应 。 通 过 Scala 的 强大 模式 
这 个 过 程 是 循环 的 。 让 Actor 可 以 时 刻 接收 处 理发 送 来 的 消息 。 


以 通过 消息 来 通信 。 一 个 Actor 收 到 其 他 Actor 的 信息 后 ， 
列 ， 而 它 每 次 也 从 队列 中 取出 消息 体 来 处 理 。 通 常情 况 下 ， 这 个 


注意 : 一 个 Actorsystem 是 一 个 重量 级 的 结构 。 它 会 分 配 N 个 线程 。 所 以 对 于 每 一 个 应 用 来 说 ， 仅 创建 一 个 ActorSystemn 朋 


范围 较 广 。 


跨 平台 的 分 布 式 系统 间 的 通信 标准 。 传 输 XML、JSON 等 格式 的 数据 ， 应 和 


。Actor 模 型 在 并 发 编程 中 是 比较 常见 的 一 种 模型 。 很 多 


发 语言 都 提供 了 原生 的 Actor 模 型 (Erlang, Scala) 。 
从 某 种 意义 上 来 说 ，Actor 是 面向 对 象 编程 中 最 严格 的 实现 形式 。 它 们 之 间 可 
自 定义 多 样 化 的 消息 。Actor 建 立 一 个 消息 队列 ， 每 次 收 到 消息 后 ， 放 入 队 
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匹配 功能 可 以 让 
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AKKA Actor 树 形 结构 Actors 以 树 形 结构 组 织 起 来 。 一 个 Actor 可 能 会 把 
于 监督 的 具体 细节 就 不 在 这 里 讨论 了 。 我 们 


AKKA 的 优势 和 特性 如 下 。 
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图 4-14 actot 模 型 


只 需 知道 一 点 ， 就 是 每 一 个 Actor 都 会 有 一 个 监督 者 ,由 


1) 并 行 和 分 布 式 : AKKA 在 设计 时 采 / 


了 异步 通信 和 分 布 式 架构 。 


己 的 任务 划分 成 更 多 更 小 的 、 利 于 管理 的 子 任务 。 为 了 达到 这 个 目的 ， 它 会 开启 


创建 这 些 Actor 的 Actor。 


己 的 子 Actor， 并 负责 监督 这 些 子 Actor。 关 


2) 可 靠 性 : 在 本 地 /远程 都 有 监控 和 恢复 机 制 。 
3) 高 性 能 : 在 单机 环境 中 每 秒 可 发 送 50000000 个 消息 。1GB 内 存 中 可 创建 和 保持 2500000 个 Actor 对 象 。 


4) 去 中 心 : 区 别 于 Master-Slave 模 式 ， 采 取 无 中 心 节点 的 架构 。 


5) 可 扩展 性 : 可 以 在 分 布 式 环境 下 进行 Scale out， 线 性 扩充 计算 能 力 。 


可 以 看 到 AKKA 具 有 强大 的 并 发 处 理 能 力 ， 在 国内 ， 吏 豆荚 对 AKKA 集 群 做 了 很 有 深度 的 研究 和 实践 ， 感 兴趣 的 读者 可 以 进一步 了 解 。 


Spark 中 并 没有 充分 挖 握 AKKA 强 大 的 并 行 计算 能 力 ， 而 是 将 其 作为 分 布 式 系 统 中 的 RPC 框 架 。 很 多 组 件 封 装 为 Actor， 进 行 控 制 和 状态 通信 。 


Spark 中 的 Client、Master 和 Worker 都 是 一 个 Actor。 


例如 ，Master 通 过 worker.actor! LaunchDriver (driver.id，driver.desc) 向 Worker 节 点 发 送 启 动 Driver 命 令 消息 ， 在 Worker 节 点 中 通过 receive 的 方式 响应 命令 消息 。 


Override def receive = { 
case LaunchDriver (driverId, driverDesc) => { 


} 


综 上 所 述 ， 通 过 AKKA 简 洁 地 实现 了 Spark 模 块 间 通 信 。 


44.2 Client、Master 和 Worker 间 的 通信 


在 Standalone 模 式 下 ， 存 在 以 下 角色 。 

- Client: 提交 作业 。 

: Master: 接收 作业 ， 启 动 Driver 和 Executor， 管 理 Worker。 
Worker: 管理 节点 资源 ， 启 动 Driver 和 Executor。 


1. 模 块 间 的 主要 消息 


这 里 结合 图 4-15 列 出 了 各 个 模块 之 间 传 递 的 主要 消息 及 其 作用 : 


LaunchExecutor 
Registered Worker 


RegisterApplication i ; l 
RegisterWorkerFailed KillExecutor 


Client Worker 


RegisteredApplication 
ExecutorAdded Register Worker 
ExecutorUpdated Heartbeat 
ExecutorStateChanged 
图 4-15 Spark 通信 模型 


(1) Client to Master 


RegisterApplication: 注册 应 用 。 


(2) Master to Client 

* RegisteredApplication: 注册 应 用 后 ， 回 复 给 Client。 

' ExecutorAdded: 通知 Client Worker 已 经 启动 了 Executor， 当 向 Worker 发 送 Launch-Executor 时 ， 通 知 Client Actor。 
“ ExecutorUpdated: 通知 Client Executor 状 态 已 更 新 。 

(3) Master to Worker 

* LaunchExecutor: 启动 Executor。 


* RegisteredWorker: Worker 注 册 的 回复 。 


* RegisterWorkerFailed: 注册 Worker 失 败 的 回复 。 

“KillExecutor: 停止 Executor 进 程 。 

(4) Worker to Master 

“ RegisterWorker:. 注册 Worker。 

* Heartbeat: 周期 性 地 Master 发 送 心跳 信息 。 

: ExecutorStateChanged: 通知 Master，Executor 状 态 更 新 。 
2. 主 要 的 通信 逻辑 
Actor 之 间 ， 消 息 发 送 端 通过 “! ”符号 发 送 消息 ， 接 收 端 通过 receive 方 法 中 的 case 模 式 匹配 接收 和 处 理 消 息 。 下 面 通 过 
(1) Client Actor 通 信 代 码 逻 辑 


Client Actor 通 信 代 码 逻 辑 如 下 所 示 。 


过 源码 介绍 Client、Master、Workeri 


这 3 个 Actor 的 主要 通信 接收 逻辑 。 


private class ClientActor (driverArgs: ClientArguments, conf: SparkConf) extends Actor with Logging { 


override def preStart () = { 
masterActor = context.actorSelection (Master.toAkkaUrl (driverArgs.master) ) 


driverArgs.cmd match ( 
case "launch" => 


/* 在 这 段 代 码 向 Master 的 Actor 提 交 Driver*/ 
masterActor ! RequestSubmitDriver (driverDescription) 


E 
$ 


override def receive = { 
/* 接 收 Master 命 令 在 Worker 创 建 Driver 成 功 与 否 的 消息 */ 
case SubmitDriverResponse (success, driverId, message) => 
println (message) 
if (success) pollAndReportStatus (driverlId.get) else System.exit (-1) 
/* 接 收 终止 Driver 成 功 与 否 的 通知 */ 
case KillDriverResponse (driverId, success, message) => 
println (message) 
if (success) pollAndReportStatus (driverId) else System.exit (-1) 


(2) Master Actor 通 信 代 码 逻 辑 


Master Actor 通 信 代 码 逻 辑 如 下 所 示 。 


private[spark] class Master ( 

host: String, 

port: Int, 

webUiPort: Int, 

val securityMgr: SecurityManager) 
extends Actor with Logging ( 


override def receive = ( 
/* 选 举 为 Master， 并 判断 该 Master 的 State 为 RecoveryState.RECOVERING， 恢 复 beginRecovery*/ 
case ElectedLeader => ( 


* 完 成 恢复 */ 


case CompleteRecovery => completeRecovery () 


册 Worker*/ 

case RegisterWorker (id, workerHost, workerPort, cores, memory, workerUiPort, 
publicAddress) => 

{ 


/* 如 果 Master 的 状态 为 RecoveryState .STANDBY， 则 不 对 Worker 进 行 注册 */ 
if (state 一 RecoveryState.STANDBY) { 
} else if (idToWorker.contains (id) ) { 
/* 该 Worker 已 经 注册 ， 通 知 Worker 不 能 重复 注册 */ 
sender ! RegisterWorkerFailed ("Duplicate worker ID") 
} else ( 
val worker = new WorkerInfo (id, workerHost, workerPort, cores, memory, 
sender, workerUiPort, publicAddress) 
if (registerWorker (worker) ) ( 
persistenceEngine.addWorker (worker) 
/*Worker 注 册 成 功 ， 通 知 Worker*/ 
sender ! RegisteredWorker (masterUrl, masterWebUiUrl) 
schedule () 
) else ( 


orker 注 册 失 败 ， 通 知 Worker*/ 
sender ! RegisterWorkerFailed ("Attempted to re-register worker at same 
address: "+ workerAddress) 


case RequestSubmitDriver (description) => 
/* 如 果 Master 的 状态 为 ALIVE， 则 提交 Driver， 琴 下 出 通知 client 无 法 提 dw 
if (state ! RecoveryState.ALIVE) { 
val msg = s"Can only accept driver submissions in ALIVE state. Current state: Sstate." 
sender ! SubmitDriverResponse (false, None, msg) 
) else ( 


/* 提 交 Driver*/ 
sender ! SubmitDriverResponse (true, Some (driver.id) , 
s"Driver successfully submitted as $(driver.id)") 


} 
l 
case RequestKillDriver (driverId) => { 
if (state ! = RecoveryState.ALIVE) { 
/* 如 果 Master 状 态 不 是 ALIVE， 则 通知 请 求 者 无 法 终止 Driver*/ 
val msg = s"Can only kill drivers in ALIVE state. Current state: $state." 
sender ! KillDriverResponse (driverId. success = false, msg) 
) else ( 
logInfo ("Asked to kill driver " + driverId) 
val driver = drivers.find ( .id == driverId) 
driver match { T 
case Some (d) => 
if (waitingDrivers.contains (d) ) 


RRRA Driver NAA, Di TU 中 删除 Driver 并 更 新 Driver 状 态 为 KILLED*/ 


waitingDrivers -= d 
self ! DriverStateChanged (driverId, DriverState.KILLED, None) 
) else ( 


AL depen 查看 Worker 上 是 否 运行 着 需要 被 终止 运行 的 Driver 进 程 ， 如 果 存 
在 则 终止 相应 进程 * 


d.worker.foreach ( w => 
w.actor ! KillDriver (driverId) 
} 
} 
val msg = s"Kill request for $driverId submitted" 
logInfo (msg) 
sender ! KillDriverResponse (driverlId, success = true, 
case None => 


// 通知 请 求 者 ， 请 求 被 终止 运行 的 Driver 已 经 被 终止 运行 或 者 不 存在 


case RequestDriverStatus (driverId) => 


/* 请 求 查找 指定 Driver 的 状态 ， 如 果 找 到 ， Wis led 


case RegisterApplication (description) => ( 
if 人 一 RecoveryState.STANDBY) ( 
) else 


msg) 


/* 如 虹 Master 的 状态 不 为 STANDBY， 则 创建 并 注册 Application， 并 通知 请 求 者 */ 


logInfo ("Registering app " + description.name) 
val app = createApplication (description, sender) 
registerApplication (app) 


logInfo ("Registered app " + description.name + " with ID " + app.id) 


persistenceEngine.addApplication (app) 
sender ! RegisteredApplication (app.id, masterUrl) 
schedule () 
} 
} 


case ExecutorStateChanged (appId, execId, state, message, exitStatus) 
后 通知 使 用 这 个 Executor 的 Driver 更 新 Executor 状 


通过 元 数据 映射 ， 获 取 到 Executor， 然 


态 。 如 果 执 行 完 ， 则 移 除 Executor， 如 果 异 常 退出 ， 则 移 除 Application*/ 


case DriverStateChanged (driverId, state, exception) => 


Driver 的 state 为 ERROR | FINISHED | KILLED | FAILED 这 个 Driver* 
/* 当 的 为 | | DE Bis zr / 


1 
} 
case Heartbeat (workerId) => { 
idToWorker.get (workerId) match { 
case Some (workerInfo) => 
/* 更 新 Worker 的 最 近 心 跳 时 间 为 最 新 时 间 */ 
workerInfo.lastHeartbeat = System.currentTimeMillis () 


case MasterChangeAcknowledged (appId) => { 


/将 指定 的 App 状态 置 为 WATTING， 为 下 一 步 切换 Master 做 准备 */ 
app.state = ApplicationState.WAITING 


case WorkerSchedulerStateResponse (workerld, executors, driverlds) => ( 


G 则 将 Worker 的 状态 置 为 ALIVE， 并 且 查 找 对 应 app 状态 为 idpefineqd 的 Executors， 将 这 些 executors 都 加 入 appd 


Y 

case DisassociatedEvent ( , address, 2 = 1 
/*Worker 或 者 Application 发 送 请 求 ， 删 除 请 求 的 Worker*/ 
addressToWorker.get (address) .foreach (removeWorker) 
/* 删 除 请 求 的 应 用 */ 
addressToApp.get (address) .foreach (finishApplication) 
/* 如 果 满足 条 件 ， 则 终止 恢复 */ 


if (state 一 Recov: eryState.RECOVERING && canCompleteRecovery) 


} 
case RequestMasterState => { 
/* 向 请 求 者 返回 Master 状 态 */ 
sender ! MasterStateResponse (host, port, workers.toArray, 
drivers.toArray, completedDrivers.toArray, state) 
l 
case CheckForWorkerTimeOut => { 
/* 检 查 并 删除 超时 Worker*/ 
} 
case RequestWebUIPort — 1 
/* 向 请 求 者 返回 Welb UI 的 端口 号 */ 
} 
} 


apps.toArray, 


=> { 


{ completeRecovery () 


completedApps .toArray, 


hh， 然后 保存 这 些 Exectutor 信 息 到 Worker 中 ， 并 将 DriverIds 中 的 Driver 轴 


3.Worker Actor 的 消息 处 理 逻 辑 


Worker Actor 的 消息 处 理 逻 辑 ， 将 通过 下 面 的 代码 分 析 进 行 介绍 。 


private[spark] class Worker ( 
host: String, 
port: Int, 
webUiPort: Int, 
cores: Int, 
memory: Int, 
masterUrls: Array[String]: 
actorSystemName: String, 
actorName: String, 
workDirPath: String - null, 
val conf: SparkConf, 
val securityMgr: SecurityManager) 
extends Actor with Logging ( 
import context.dispatcher 
override def receive - ( 
case RegisteredWorker (masterUrl, masterWebUiUrl) => 
/*Worker 收 到 Master 传 回 的 注册 成 功 消息 ， 然 后 Worker 配 置 对 应 的 Master*/ 


case SendHeartbeat => 
/* 收 到 主 节点 消息 后 ， 向 主 节点 发 送 心跳 ， 证 明 本 Worker 存 活 */ 
masterLock.synchronized { 
if (connected) { master ! Heartbeat (workerId) } 


l 
case WorkDirCleanup => 
/* 启 动 一 个 独立 的 线程 去 清理 旧 应 用 的 目录 和 文件 */ 


val cleanupFuture = concurrent.future { 


logInfo ("Cleaning up oldest application directories in " + workDir + " http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14947/O0E 


Utils.findOldFiles (workDir, APP DATA RETENTION SECS) 
-foreach (Utils.deleteRecursively) 
} 


case MasterChanged (masterUrl, masterWebUiUr1) => 
/* 当 选举 出 新 的 Master 时 ，Worker 更 新 Master 节 点 URI 等 信息 */ 
logInfo ("Master has changed, new master is at " + masterUrl) 
changeMaster (masterUrl, masterWebUiUrl) 


/* 从 Driver 节 点 接收 心跳 消息 */ 


Case Heartbeat => 


/* 在 主 节点 注册 Worker 失 败 */ 
case RegisterWorkerFailed (message) => 


/* 启 动 Executor*/ 
case LaunchExecutor (masterUr1， appId， execId, appDesc, cores , memory ) 
启动 Executor 进 程 */ 
if (masterUrl ! = activeMasterUrl) { 
logWarning ("Invalid Master (" + masterUrl + ") attempted to launch executor.") 
) eise ( 
try { 


logInfo ("Asked to launch executor $s/$d for $s".format (applId, 


execId, 


=> 


appDesc.name) ) 


val manager = new ExecutorRunner (appId, execId， appDesc, cores , memory ， 
self, workerId, host, 


appDesc.sparkHome.map (userSparkHome => new File (userSparkHome) ) .getOrElse (sparkHome) , 


workDir,  akkaUrl, conf, ExecutorState.RUNNING) 
/* 对 元 数据 进行 更 新 */ 
executors (appId + "/" + execId) = manager 
manager.start () 
CoresUsed += cores 
memoryUsed += memory - 
masterLock.synchronized ( 
master ! ExecutorStateChanged (appId, execId, manager.state, None, None) 
} 
} catch { 
Case e: Exception => { 


logError ("Failed to launch executor $s/$d for $s".format (appId. execId, appDesc.name) ) 


if (executors.contains (appId + "/" + execId) ) { 
executors (appId + "/" + execId) .kill O 
executors -= appId + "/" + execId 

} 

masterLock.synchronized { 

master ! ExecutorStateChanged (appId, execId, ExecutorState.FAILED, 
None, None) 
l 
J 
} 


} 
/*Executor 状 态 更 新 */ 
case ExecutorStateChanged (appId, execId, state, message, exitStatus) => 
masterLock.synchronized ( 
/* 同 步 通知 Master 节 点 ，Executor 状 态 进行 了 更 新 */ 
master ! ExecutorStateChanged (appId, execId, state, message, exitStatus) 
f 
val fullld = appId + "/" + execId 
if (ExecutorState.isFinished (state) ) { 
executors.get (fullIdD match { 
/* 如 果 Executor 完 成 工作 ， 则 释放 资源 */ 
case Some (executor) => 
logInfo ("Executor " + fullld + " finished with state " + state + 
message.map (" message " + ) .getOrElse ("") + 
exitStatus.map (" exitStatus " + ) .getOrElse ("") ) 


executors -= fullld 

finishedExecutors (fullId) = executor 
coresUsed -= executor.cores 
memoryUsed -= executor.memory 


E 


} 

/* 终 止 Executor*/ 

case KillExecutor (masterUrl, appId， execId) => 
/* 终 止 本 Worker 节 点 上 运行 的 Executor*/ 


executors.get (fullId) match ( 
case Some (executor) => 
logInfo ("Asked to kill executor " + fullId) 
executor.kill O 


} 


} 
/* 启 动 Driver*/ 
case LaunchDriver (driverId， driverDesc) => ( 
/* 接 收 Master 节 点 命令 ， 启 动 Driver*/ 
logInfo (s"Asked to launch driver $driverId") 
val driver = new DriverRunner (driverId, workDir, sparkHome, driverDesc, self, 
drivers (driverId) - driver 
driver.start () 
coresUsed += driverDesc.cores 
memoryUsed += driverDesc.mem 
l 
case KillDriver (driverId) => ( 
/* 终 止 本 Worker 节 点 正在 运行 的 Driver*/ 


} 
/*Driver 状 态 更 新 */ 
case DriverStateChanged (driverId, state, exception) => { 
/* 如 果 Worker 上 运行 的 Apl1ication 的 Driver 状 态 为 错误 异常 或 者 正常 结束 等 ， 则 打印 相应 的 
状态 日 志 ， 通 知 计 并 移 除 Driver*/ 
state match { 
case DriverState.ERROR => 
logWarning (s"Driver $driverId failed with unrecoverable exception: 
$(exception.get])") 
case DriverState.FAILED => 
logWarning (s"Driver $driverId exited with failure") 
case DriverState.FINISHED => 
logInfo (s"Driver $driverId exited successfully") 
case DriverState.KILLED => 
logInfo (s"Driver $driverId was killed by user") 
case _ => 
logDebug (s"Driver $driverId changed state to $state") 


f 
masterLock.synchronized { 
master ! DriverStateChanged (driverId, state, exception) 
} 
val driver = drivers.remove (driverId) .get 
finishedDrivers (driverId) - driver 
memoryUsed -- driver.driverDesc.mem 
coresUsed -= driver.driverDesc.cores 
} 
case x: DisassociatedEvent if x.remoteAddress == masterAddress => 
/* 与 主 节点 失去 连接 ， 更 新 connected 状 态 为 false， 等 待 Master 重 新 连接 */ 
logInfo (s"$x Disassociated ! ") 
masterDisconnected () 
case RequestWorkerState => ( 
/* 向 请 求 者 返回 本 Worker 的 目前 状态 信息 */ 
sender ! WorkerStateResponse (host. port, workerId, executors.values.toList, 
finishedExecutors.values.toList, drivers.values.toList, 
finishedDrivers.values.toList,  activeMasterUrl, cores, memory, 
coresUsed, memoryUsed, activeMasterWebUiUrl) 


akkaUrl) 


4.5 ”容错 机 制 


在 众多 特性 中 ， 最 难 实现 的 是 容错 性 。 一 般 来 说 ， 分 布 式 数据 集 的 容错 性 有 两 种 方式 : 数据 检查 点 和 记录 数据 的 更 新 。 面 向 大 规模 数 


在 机 器 之 间 复 制 庞 大 的 数据 集 ， 而 网 络 带宽 往往 比 内 存 带 宽 低 得 多 ， 同 时 还 需要 消耗 更 多 的 存储 资源 。 


此 ，RDD 只 支持 粗 粒度 转换 ， 即 在 大 量 记 录 上 执行 的 单个 操作 。 将 创建 RDD 的 一 系列 Lineage ( 即 血 统 ) 记录 下 来 ， 以 便 恢复 丢失 的 分 区 。Lineage 本 质 上 很 类 似 


不 过 这 个 重 做 日 志 粒度 很 大 ， 是 对 全 局 数据 做 同样 的 重 做 进而 恢复 数据 。 


45.1 Lineage 机 制 


因此 ，Spark 选 择 记录 更 新 的 方式 。 但 是 ， 如 果 更 新 粒度 太 纪 


局 分 析 ， 数 据 检查 点 操作 成 本 很 高 ， 需 要 通过 数据 中 心 的 网 络 连接 


太 多 ， 那 么 记录 更 新 成 本 也 不 低 。 因 


数据 库 中 的 重 做 日 志 (Redo Log) ， 只 


最 后 ， 为 了 说 明 模型 的 容错 性 ， 图 4-16 给 出 了 3 个 算 子 的 血统 (lineage) 关系 图 。 在 lines RDD 上 执行 filter 操 作 ， 得 到 errors， 然 后 filter、map 后 得 到 新 的 RDD (filter、map 和 collect 都 是 Spark 中 对 
RDD 的 函数 操作 ) 。Spark 调 度 器 以 流水 线 的 方式 执行 后 三 个 转换 ， 向 拥有 errors 分 区 缓存 的 节点 发 送 一 组 任务 。 此 外 ， 如 果 某 个 errors 分 区 丢失 ， 则 Spark 只 在 相应 的 lines 分 区 上 执行 filter 操 作 来 重建 该 


errors 分 区 。 


lines 


filter ( .startsWith( "ERROR" )) 


errors 


filter ( .contains( "HDFS" ))) 


HDFS errors 


map ( .split ( t) (3)) 


time fields 


图 4-16 RDD Lineage 


1.Lineage ff 4 


相 比 其 他 系统 的 细 颗 粒度 的 内 存 数据 更 新 级 别 的 备份 或 者 LOG 机 制 ，RDD 的 Lineage 记 录 的 是 粗 颗粒 度 的 特定 数据 Transformation 操 作 (如 filter、map、join 等 ) 行为 。 当 这 个 RDD 的 部 分 分 区 数据 丢 
失 时 ， 它 可 以 通过 Lineage 获 取 足 够 的 信息 来 重新 运算 和 恢复 丢失 的 数据 分 区 。 因 为 这 种 粗 颗粒 的 数据 模型 ， 限 制 了 Spark 的 运用 场合 ， 所 以 Spark 并 不 适用 于 所 有 高 性 能 要 求 的 场景 ， 但 同时 相 比 细 颗 粒度 
的 数据 模型 ， 也 带 来 了 性 能 的 提升 。 


2. 两 种 依赖 


RDD 在 Lineage 依 赖 方面 分 为 两 种 : Narrow Dependencies 与 Shuffle Dependencies， 用 来 解决 数据 容错 的 高 效 性 。Narrow Dependencies 是 指 父 RDD 的 每 一 个 分 区 最 多 被 一 个 子 RDD 的 分 区 所 用 ， 
表现 为 一 个 父 RDD 的 分 区 对 应 于 一 个 子 RDD 的 分 区 或 多 个 父 RDD 的 分 区 对 应 于 一 个 子 RDD 的 分 区 ， 也 就 是 说 一 个 父 RDD 的 一 个 分 区 不 可 能 对 应 一 个 子 RDD 的 多 个 分 区 。Shuffle Dependencies 是 指 子 RDD 
的 分 区 依赖 于 父 RDD 的 多 个 分 区 或 所 有 分 区 ， 即 存在 一 个 父 RDD 的 一 个 分 区 对 应 一 个 子 RDD 的 多 个 分 区 。 


本 质 理解 : 根据 父 RDD 分 区 是 对 应 1 个 还 是 多 个 子 RDD 分 区 来 区 分 Narrow Dependency ( 父 分 区 对 应 一 个 子 分 区 ) 和 Shuffle Dependency ( 父 分 区 对 应 多 个 子 分 区 ) 。 如 果 对 应 多 个 ， 则 当 容 错 重 算 
分 区 时 ， 因 为 父 分 区 数据 只 有 一 部 分 是 需要 重 算 子 分 区 的 ， 其 余数 据 重 算 就 造成 了 宛 余 计算 。 


- Narrow Dependency: 1 个 父 RKDD 分 区 对 应 1 个 子 RDD 分 区 ， 这 其 中 又 分 两 种 情况 : 1 个 子 RDD 分 区 对 应 1 个 父 RDD 分 区 (如 map、filtet 等 算 子 ) ，1 个 子 RDD 分 区 对 应 N 个 父 RDD 分 区 (如 co- 


paritioned (协同 划分 ) 过 的 Join) 。 


* Shuffle Dependency: 1 个 父 RDD 分 区 对 应 多 个 子 RDD 分 区 ， 这 其 中 又 分 两 种 情况 : 1 个 父 RDD 对 应 所 有 子 RDD 分 区 (未 经 协同 划分 的 Join) 或 者 1 个 父 KDD 对 应 非 全 部 的 多 个 RDD 分 区 (如 


groupByKey) 。 


对 于 Shuffle Dependencies，Stage 计 算 的 输入 和 输出 在 不 同 的 节点 上 ， 对 于 输入 节点 完好 ， 而 输出 节点 死机 的 情况 ， 通 过 重新 计算 恢复 数据 这 种 情况 下 ， 这 种 方法 容错 是 有 效 的 ， 否 则 无 效 ， 因 为 无 
法 重 试 ， 需 要 向 上 追溯 其 祖先 看 是 否 可 以 重 试 (这 就 是 lineage， 血 统 的 意思 ) , Narrow Dependencies 对 于 数据 的 重 算 开 销 要 远 小 于 Wide Dependencies 的 数据 重 算 开销 。 


Narrow Dependency 和 shuffle Dependency 的 概念 主要 用 在 两 个 地 方 : 一 个 是 容错 中 相当 于 Redo 日 志 的 功能 ; 另 一 个 是 在 调度 中 构建 DAG 作 为 不 同 Stage 的 划分 点 。 


3. 容 错 原理 
在 容错 机 制 中 ， 如 果 一 个 节点 死机 了 ， 而 且 运 算 Narrow Dependency， 则 只 要 把 丢失 的 父 RDD 分 区 重 算 即 可 ， 不 依赖 于 其 他 节点 。 而 Shuffle Dependency 需 要 父 RDD 的 所 有 分 区 都 存在 ， 重 算 就 很 


昂贵 了 。 可 以 这 样 理解 开销 的 经 济 与 否 : 在 Narrow Dependency 中 ， 在 子 RDD 的 分 区 丢失 、 重 算 父 RDD 分 区 时 ， 父 RDD 相 应 分 区 的 所 有 数据 都 是 子 RDD 分 区 的 数据 ， 并 不 存在 匈 余 计 算 。 在 Shuffle 
Dependency 情 况 下 ， 丢 失 一 个 子 RDD 分 区 重 算 的 每 个 父 RDD 的 每 个 分 区 的 所 有 数据 并 不 是 都 给 丢失 的 子 RDD 分 区 用 的 ， 会 有 一 部 分 数据 相当 于 对 应 的 是 未 丢失 的 子 RDD 分 区 中 需要 的 数据 ， 这 样 就 会 产生 
元 余 计算 开销 ， 这 也 是 Shuffle Dependency 开 销 更 大 的 原因 。 因 此 如 果 使 用 Checkpoint 算 子 来 做 检查 点 ， 不 仅 要 考虑 Lineage 是 否 足够 长 ， 也 要 考虑 是 否 有 宽 依赖 ， 对 Shuffle Dependency 加 
Checkpoint 是 最 物 有 所 值 的 。 下 面 结合 图 4-17 进 行 分 析 。 
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4-17 Narrow 依赖 


Narrow (i dfi 


以 图 4-17 上 端的 图 为 例 ， 如 果 RDD_1 中 的 Partition3 出 错 丢失 ， 则 Spark 会 回溯 到 Partition3 的 父 分 区 RDD 0 的 Partition3， 对 RDD 0 的 Partition3 重 算 算 子 ， 得 到 RDD 1 的 Partition3。 其 他 分 区 丢失 也 


是 同 理 重 算 进行 容错 恢复 。 


以 图 4-18 下 端的 图 为 例 ， 其 中 RDD_1 中 的 Partition3 丢 失 出 错 ， 由 于 其 父 分 区 是 RDD_0 的 所 有 分 区 ， 所 以 需要 回溯 到 RDD_0， 重 算 RDD_0 的 所 有 分 区 ， 然 后 将 RDD_1 的 Partition3 需 要 的 数据 聚集 合并 


为 RDD_1 的 Partition3。 在 这 个 过 程 中 ， 由 于 RDD_0 中 不 是 RDD_1 中 Partition3 需 要 的 数据 也 全 部 进行 卫 


算 ， 所 以 产生 了 大 量 刀 余数 据 和 


通过 代码 介绍 容错 的 具体 调用 。 


下 面 通过 CacheManager 类 的 getsOrCompute 方 法 作用 入 口 ， 进 一 步 分 析 容 错 机 制 。 


ERRIRE. 


def getOrCompute[T] ( 
rdd: RDD[T], 
partition: Partition, 
context: TaskContext, 
storageLevel: StorageLevel) : Iterator[T] = 
case None => 
val storedValues = acquireLockForPartition[T] (key) 
if (storedValues.isDefined) 
return new InterruptibleIterator[T] (context, storedValues.get) 
} 
try { 
logInfo (s"Partition $key not found, ca uting it" 


Jo DR EE T. 在 BlockManager 无 法 找到 ， 这 个 分 区 就 per mmm 需要 重新 计算 ) */ 


val computedValues = rdd.computeOrReadCheckpoint (partition, context) 


图 4-18 Shuffle 依赖 


下 面 通过 RDD 的 computeOrReadCheckpoint 方 法 的 代码 进一步 分 析 容 错 机 制 。 


Shuffle (A fji 


private[spark] def computeOrReadCheckpoint (split: Partition, 


context: TaskContext) : Iterator[T] = 


{ 
/* 这 里 相当 于 对 这 个 分 区 回溯 到 父 节点 或 者 祖先 节点 ， 然 后 一 路 计算 回来 得 到 这 个 分 区 ， 相 当 于 只 需要 计算 这 个 分 区 的 依赖 ， 因 为 是 获取 这 个 分 区 ， 而 不 是 计算 所 有 分 区 */ 
if (isCheckpointed) firstParent[T].iterator (split, context) else compute (split, context) 


可 以 通过 图 4-19 来 理解 重 做 Lineage 的 过 程 ， 虚 线 方 框 表示 逻辑 分 区 ， 相 当 于 计算 完成 后 就 不 存在 了 ， 已 经 转化 为 RDD_2 中 分 区 的 数据 。 实 线 方 框 表 示 分 区 的 重新 计算 过 程 就 是 由 于 RDD_2 的 分 区 丢失 


了 ,， 程 序 用 到 Partition0 分 区 ， 找 不 到 ， 就 反 向 回溯 Lineage 到 RDD 0 的 分 
Partition0。 这 时 就 不 需要 其 他 分 区 参与 计算 了 。 


区 Partition0 和 Partition1， 然 后 对 其 进行 


新 计算 ， 计 算 结 果 为 RDD 1 的 Partition0，RDD 1:58 


新 计算 Partition0 为 RDD_2 中 的 


PartitionO 
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4.5.2. Checkpoint 机 制 


通过 上 述 分 析 可 以 看 出 在 以 下 两 种 情况 下 ，RDD 需 要 加 检查 点 。 


1) DAG 中 的 Lineage 过 长 ， 如 果 重 算 ， 则 开销 太 大 (如 在 PageRank 中 ) 。 


2) 在 Shuffle Dependency 上 做 Checkpoint (检查 点 ) 获得 的 收益 更 大 。 


RDD 0 


Partitionl 


图 4-19 ”回溯 Lineage 


由 于 RDD 是 只 读 的 ， 所 以 Spark 的 RDD 计 算 中 一 致 性 不 是 主要 关心 的 内 容 ， 内 存 相对 容易 管理 ， 这 也 是 设计 者 很 有 远见 的 地 方 ， 这 样 减少 了 框架 的 复杂 性 ， 提 升 了 性 能 和 可 扩展 性 ， 为 以 后 上 层 框架 的 
丰富 黄 定 了 强 有 力 的 基础 。 

在 RDD 计 算 中 ， 通 过 检查 点 机 制 进行 容错 ， 传 统 做 检查 点 有 两 种 方式 : 通过 宛 余数 据 和 日 志 记录 更 新 操作 。 在 RDD 中 的 doCheckPoint 方 法 相当 于 通过 宛 余数 据 来 缓存 数据 ， 而 之 前 介绍 的 血统 就 是 通 
过 相当 粗 粒 度 的 记录 更 新 操作 来 实现 容错 的 。 

在 Spark 中 ， 通 过 RDD 中 的 checkpoint () 方法 来 做 检查 点 。 

def checkpoint () : Unit 

可 以 通过 SparkContext.setCheckPointDir () 设置 检查 点 数据 的 存储 路 径 ， 进 而 将 数据 存储 备份 ， 然 后 Spark 删 除 所 有 已 经 做 检查 点 的 RDD 的 祖先 RDD 依 赖 。 这 个 操作 需要 在 所 有 需要 对 这 个 RDD 所 
做 的 操作 完成 之 后 再 做 ， 因 为 数据 会 写 入 持久 化 存储 造成 MO 开销 。 官 方 建议 ， 做 检查 点 的 RDD 最 好 是 在 内 存 中 已 经 缓存 的 RDD， 否 则 保存 这 个 RDD 在 持久 化 的 文件 中 需要 重新 计算 ， 产 生 /O 开 销 。 

下 面 通过 源码 来 了 解 检查 点 的 机 制 。 

丛 查 点 (本 质 是 通过 将 RDD 写 入 Disk 做 检查 点 ) 是 为 了 通过 lineage 做 容错 的 辅助 ，lineage 过 长 会 造成 容错 成 本 过 高 ， 这 样 就 不 如 在 中 间 阶 段 做 检查 点 容错 ， 如 果 之 后 有 节点 出 现 问题 而 丢失 分 区 ， 从 
做 检查 点 的 RDD 开 始 重 做 Lineage， 就 会 减少 开销 。 

在 RDD 中 通过 doCheckpoint () 方法 作为 检查 点 的 入 口 方法 。 

private[spark] def doCheckpoint O { ... 
checkpointData.get.doCheckpoint () ) else 
{ dependencies. foreach ( .rdd.doCheckpoint () ) } AA } 


在 RDDCheckpointData 中 ， 通 过 doCheckpoint () 方法 做 检查 点 。 


def doCheckpoint () { 


RDD 通 过 同步 方式 做 检查 点 ， 具 体 使 


/*path 检 查 点 RDD 的 输出 文件 路 径 * 

CheckpointData.synchronized 4 

val path = new Path (rdd.context. checkpointDir. get, 

val fs = path.getFileSystem (new Configuration () ) 

if (! fs.mkdirs (path) ) ( 

throw new SparkException ("Failed to create checkpoint path " 

/* 在 SparkContext 提 交 作 业 ， 将 检查 点 RDD 写 入 之 前 设置 的 路 径 中 */ 

rdd.context.runJob (rdd, CheckpointRDD.writeToFile (path. o ) 

val newRDD = new CheckpointRDD[T] (rdd.context, path.toString) il 


"rdd-" + rdd.ia) 


* path) } 


/ ,在 checkpointRpp 中 调 用 writeToFile 方 法 将 RDD 写 入 HDFS*/ 

def writeToFile[T] (path: String, blockSize: Int = -1) (ctx: 
TaskContext, iterator: Iterator[T]) { 

val env = SparkEnv.get 


Synchronized 保 证 方法 的 同步 和 线程 安全 。 代 码 实 现 如 下 。 


val outputDir = new Path (path) 
/* 本 质 相 当 于 在 Hadoop 的 分 布 式 文件 系统 将 RDD 数 据 写 进 HDFsx/ 


val fs = outputDir.getFileSystem (env.hadoop.newConfiguration () ) val finalOutputName = splitIdToFile (ctx.splitId) 
val finalOutputPath = new Path (outputDir, finalOutputName) 

val tempOutputPath = new Path (outputDir, "." + finalOutputName + "-attempt-" + ctx.attemptlId) 

/* 根 据 数据 量 不 同 设置 ， 不 同 的 缓冲 区 大 小 */ 

val bufferSize = System.getProperty ("spark.buffer.size", "65536") .toInt 


val fileOutputStream = if (blockSize < 0) 
fs.create (tempOutputPath, false, PbufferSize) 
) else ( // This is mainly for testing purpose 
fs.create (tempOutputPath, false, bufferSize, 
fs.getDefaultReplication, blockSize) H 
/* 创 建 序列 化 器 */ 
val serializer = env.serializer.newInstance () 
val serializeStream = serializer.serializeStream (fileOutputStream) 
/IEREAUES ABRE, XtütiEfEiterator LIH? T fEiteraorXR IIS IUE FINE SIDES */ 
serializeStream.writeAll (iterator) serializeStream.close () - } 
SerializationStream 写 入 操作 
trait SerializationStream { 
def writeObject[T] (t: T):  SerializationStream 
def flush O : Unit 
def close O : Unit 
def writeAll[T] (iter: Iterator[T]) : pcd cu TM -í( 
while (iter.hasNext) { writeObject (iter.next ( } 
/* 如 果 配置 了 kyro 序 列 化 器 进行 写 入 ， WR Filled ccn ec CI DeMHHRI DMLR ARDES?/ 
private[spark] class KryoSerializationStream (kryo: Kryo, outStream: OutputStream) extends SerializationStream 
{ val output = new KryoOutput (outStream) 


} 


def writeObject[T] (t: T): SerializationStream = { 
kryo.writeClassAndObject (output, t) 

this H 

def flush O { output.flush O } 

def close O { output.close O } 


46 _ Shuffle 机 制 


Shuffle 的 本 义 是 洗 牌 、 混 洗 ， 即 把 一 组 有 一 定 规则 的 数据 打 散 重新 组 合 转换 成 一 组 无 规则 随机 数据 分 区 。Spark 中 的 Shuffle 更 像 是 洗 牌 的 逆 过 程 ， 把 一 组 无 规则 的 数据 尽量 转换 成 一 组 具有 一 定 规则 的 
数据 ，Spark 中 的 shuffle 和 MapReduce 中 的 Shuffle 思 想 相 同 ， 在 实现 细节 和 优化 方式 上 不 同 ， 因 此 掌握 Hadoop 的 Shuffle 原 理 的 用 户 很 容易 将 原 有 知识 迁移 过 来 。 


为 什么 Spark 计 算 模型 需要 Shuffle 过 程 ? 我 们 都 知道 ，Spark 计 算 模型 是 在 分 布 式 的 环境 下 计算 的 ， 这 就 不 可 能 在 单 进程 空间 中 容纳 所 有 的 计算 数据 来 进行 计算 ， 这 样 数据 就 按照 Key 进 行 分 区 
一 块 一 块 的 小 分 区 ， 打 散 分 布 在 集群 的 各 个 进程 的 内 存 空 间 中 ， 并 不 是 所 有 计算 算 子 都 满足 于 按照 一 种 方式 分 区 进行 计算 。 例 如 ， 当 需要 对 数据 进行 排序 存储 时 ， 就 有 了 重新 按照 一 定 的 规则 对 数 
区 的 必要 ，Shuffle 就 是 包 诸 在 各 种 需要 重 分 区 的 算 子 之 下 的 一 个 对 数据 进行 重新 组 合 的 过 程 。 在 逻辑 上 还 可 以 这 样 理解 (']: 由 于 重新 分 区 需要 知道 分 区 规则 ， 而 分 区 规则 按照 数据 的 Key 通 过 映射 函数 
(Hash 或 者 Range 等 ) 进行 划分 ， 由 数据 确定 出 Key 的 过 程 就 是 Map 过 程 ， 同 时 Map 过 程 也 可 以 做 数据 处 理 ， 例 如 ， 在 Join 算 法 中 有 一 个 很 经 典 的 算法 叫 Map Side Join， 就 是 确定 数据 该 放 到 哪个 分 区 的 
逻辑 定义 阶段 。Shuffle 将 数据 进行 收集 分 配 到 指定 Reduce 分 区 ，Reduce 阶 段 根据 函数 对 相应 的 分 区 做 Reduce 所 需 的 函数 处 理 。 


下 面 结合 源码 和 图 4-20 从 物理 实现 上 看 Spark 的 Shuffle 是 怎样 实现 的 ， 将 Shuffle 分 为 两 个 阶段 : Shuffle Write 和 Shuffle Fetch 阶 段 (Shuffle Fetch 中 包含 聚集 Aggregate) ， 在 Spark 中 ， 整 个 Job 
转化 为 一 个 有 向 无 环 图 (DAG) 来 执行 ， 从 图 4-21 中 可 以 看 出 在 整个 DAG 中 是 在 每 个 Stage 的 承接 阶段 做 Shuffle 过 程 。 
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图 4-20 ”Shuffle 阶段 图 


图 4-20 中 ， 整 个 Job 分 为 Stage0~ Stage3，4 个 Stage。 


首先 从 最 上 端的 Stage2、Stage3 执 行 ， 每 个 stage 对 每 个 分 区 执行 变换 (transformation) 的 流水 线 式 的 函数 操作 ， 执 行 到 每 个 Stage 最 后 阶段 进行 Shuffle Write， 将 数据 重新 根据 下 一 个 Stage 分 区 
数 分 成 相应 的 Bucket， 并 将 Bucket 最 后 写 入 磁盘 。 这 个 过 程 就 是 Shuffle Write 阶段 。 


执行 完 Stage2、Stage3 之 后 ，Stage1 去 存储 有 Shuffle 数 据 节点 的 磁盘 Fetch 需 要 的 数据 ， 将 数据 Fetch 到 本 地 后 进行 用 户 定义 的 聚集 函数 操作 。 这 个 阶段 叫 Shuffle Fetch, Shuffle Fetch 包 含 聚集 阶 
段 。 这 样 一 轮 一 轮 的 Stage 之 间 就 完成 了 Shuffle 操 作 。 


下 面 我 们 更 细 粒 度 地 将 Shuffle 的 阶段 进行 拆 分 ， 以 更 深入 剖析 和 了 解 。 


1.Shuffle Write 


由 于 Spark 的 每 个 stage 中 是 通过 执行 任务 来 进行 运算 的 ， 而 Spark 中 只 分 为 两 种 任务 ，ShuffleMapTask 和 ResultTask。 其 中 ResultTask 就 是 最 底层 的 stage， 也 是 整个 任务 执行 的 最 后 阶段 将 数据 输出 
到 Spark 执 行 空间 Stage， 除 了 这 个 阶段 执行 ResultTask， 其 余 阶 段 都 执行 ShuffleMapTask。 因 此 主要 的 Shuffle Write 逻辑 存在 这 种 任务 的 代码 中 。 


由 于 Shuffle 


属于 大 数据 优化 的 一 个 很 重要 的 阶段 ， 所 以 这 里 的 代码 优化 会 比较 频繁 ， 下 面 基于 Spark 1.0 的 代码 进行 介绍 ， 后 续 发 展 变化 请 读者 参考 相应 版 本 。 


(1) Shuffle Write 流程 


ShuffleWrite 的 入 口 是 通 过 ShuffleMapTask 中 的 runTask 方 法 进入 的 ， 也 是 整个 shuffle Write 的 控制 骨架 。 


override def runTask (context: TaskContext) : MapStatus = ( 


writer = manager.getWriter[Any, Any] (dep.shuffleHandle, partitionId, context) 
/* 此 处 相当 于 使 用 ShuffleWriter 将 相应 的 分 区 进行 Shuffle Write*/ 


writer.write (rdd.iterator (split, context) .asInstance0f[Iterator[_ <: Product2[Any, any]]]) 
return writer.stop (success - true) .get 


ShuffleWriter 是 个 抽象 的 特征 (Trait) ， 下 面 看 下 它 的 
者 做 普通 的 Shuffle， 并 且 提 供 Shuffle Write 各 个 流程 的 函数 。 


体 实现 。 例 如 ， 我 们 看 看 HashShuffleWriter 中 是 怎样 实现 的 ，HashShuffleWriter 的 主要 功能 其 实 就 是 判断 是 否 需 要 做 MapSideCombine 或 


override def write (records: Iterator[ <: Product2[K, V]]): Unit = { 
private val shuffle = shuffleBlockManager.forMapTask (dep.shuffleId, mapId, numOutputSplits, ser) 
/* 这 里 判断 是 否 进行 MapSideCombine， 也 就 是 判断 是 否 做 Map 端 聚集 合并 ， 如 果 合 并 能 够 在 Map 端 做 ， 将 会 很 大 程度 减少 网 络 传输 的 数据 量 ， 减 少 开销 */ 
val iter = if (dep.aggregator.isDefined) { 
if (dep.mapSideCombine) { 
dep.aggregator.get.combineValuesByKey (records, context) 
) eise ( 
records 


} 


for (elem <- iter) { 
val bucketId = dep.partitioner.getPartition (elem. 1) 
/* 这 里 调用 ShuffleWriterGroup 的 writers 获 取 数 据 写 入 器 ， 将 数据 写 入 bucket*/ 
shuffle.writers (bucketId) .write (elem) 
} 
l 


下 面 进入 ShuffleBlockManager， 来 分 析 最 终 要 做 的 Shuffle Write 逻辑 。 从 这 段 代码 中 可 以 看 出 Spark 支 持 两 种 类 型 的 Shuffle: Shuffle 和 优化 的 Consolidate Shuffle, 


val writers: Array[BlockObjectWriter] = if (consolidateShuffleFiles) ( 
fileGroup = getUnusedFileGroup () 
Array.tabulate[BlockObjectWriter] (numBuckets) { bucketlId => 
val blockId = ShuffleBlockId (shuffleId, mapId， bucketId) 
/* 两 种 Shuffle 的 区 别 其 实 是 在 对 Bucket 的 处 理 是 否 写 入 FileGroup 中 
FileGroup 就 是 一 个 文件 数组 ， 存 储 文件 的 引用 。 在 内 存 中 维持 这 些 FileGroup 的 引用 */ 
blockManager.getDiskWriter (blockId, fileGroup (bucketId), serializer, bufferSize) 
} 
} else ( 
Array.tabulate[BlockObjectWriter] (numBuckets) { bucketlId => 
val blockId = ShuffleBlockId (shuffleId, mapId， bucketId) 
/* 此 处 逻辑 是 获取 相应 的 块 ， 由 于 每 次 都 是 第 一 次 获取 ， 所 以 会 创建 新 文件 ， 这 里 每 次 都 会 产生 新 的 文件 */ 
val blockFile = blockManager.diskBlockManager.getFile (blockId) 


blockManager.getDiskWriter (blockld, blockFile, serializer, bufferSize) 
} 


J 


其 中 ， 图 4-21 为 Shuffle FileGroup 的 结构 。 
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图 4-21 Shuffle FileGroup 结 构 


Shuffle 做 Shuffle Write 的 细节 如 图 4-22 所 示 。 注 意 : 这 里 的 数据 是 直接 写 入 缓冲 中 ， 而 未 经 过 排序 。 


RDD 


DiskBlockObjectWriter 


partition 


写 入 数据 项 


Bucket 


Buffer 
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最 终 在 HashshuffleWriter， 将 内 存 的 Bucket 写 到 磁盘 ， 存 储 为 文件 ， 并 将 Shuffle 的 各 个 Bucket 及 映射 信息 返回 给 主 节点 。 


(2) Shuffle 和 Consolidate Shuffle 对 比 


下 面 从 图 4-23 和 图 4-24 中 ， 更 加 直观 地 对 比 Shuffle 和 Consolidate Shuffle 的 整体 流程 区 别 。 
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图 4-23 Shuffle 流程 


图 4-23 中 是 进行 Shuffle 的 整体 流程 ， 假 定 该 Shuffle 中 有 3 个 Mapper 和 2 个 Reducer， 这 样 会 产生 3x2=6 个 Bucket， 也 就 是 会 产生 6 个 Shuffle 文 件 。 因 此 ， 产 生 的 Shuffle 文 件 个 数 为 MxR，M 是 Map 
任务 个 数 ，R 是 Reduce 任 务 数 。 


图 4-24 是 Consolidation Shuffle 的 流程 图 。 其 中 每 一 个 Bucket 并 非 对 应 一 个 文件 ， 而 是 对 应 文件 中 的 一 个 segment， 同 时 Consolidation Shuffle 所 产生 的 Shuffle 文 件数 量 与 Spark Core 的 个 数 也 具有 
相关 性 。 在 上 面 的 图 例 中 ，Job 的 4 个 Mapper 分 为 两 批 运行 ， 在 第 一 批 2 个 Mapper 运 行 时 ， 申 请 4 个 Bucket， 产 生 4 个 Shuffle 文 件 ; 在 第 二 批 Mapper 运 行 时 ， 由 于 只 有 一 个 Mapper， 申 请 的 4 个 bucket 并 
不 会 再 产生 4 个 新 的 文件 ， 而 是 追加 写 到 之 前 的 其 中 两 个 文件 后 面 ， 这 样 一 共 只 有 4 个 shuffle 文 件 ， 而 在 文件 内 部 这 有 6 个 不 同 的 segment。 因 此 ， 从 理论 上 讲 Shuffle Consolidation 所 产生 的 shuffle 文 件数 
量 为 CxR， 其 中 C 是 Spark 集 群 的 Core Number，R 是 Reducer 的 个 数 。 


File Group r 1 
ı Shuffle Fetch , 


这 里 的 特殊 情况 是 当 M =C 时 ，Consolidation Shuffle 所 产生 的 文件 数 和 之 前 的 实现 相同 。 


图 4-24 Consolidation Shuffle 流 程 


Consolidation Shuffle 显 著 减 少 了 shuffle 文 件 的 数量 ， 解 决 了 文件 数量 过 多 的 问题 ， 但 是 Writer Handler 的 Buffer 开 销 过 大 依然 没有 减少 ， 若 要 减少 Writer Handler 的 Buffer 开 销 ， 只 能 减少 Reducer 
的 数量 ， 但 是 这 又 会 引入 新 的 问题 。 


2.Shuffle Fetch 


Shuffle write 阶段 写 到 各 个 节点 的 数据 ，Reducer 端 的 节点 通过 拉 取 数据 进而 获取 需要 的 数据 ， 在 Spark 中 这 个 叫 Fetch。 这 就 需要 Shuffle Fetcher 将 所 需 的 数据 拉 过 来 。 这 里 的 fetch 包 括 本 地 和 远 
端 ， 因 为 shuffle 数 据 有 可 能 一 部 分 存储 在 本 地 。Spark 使 用 两 套 框架 实现 Shuffle Fetcher: NIO 通 过 Socket 连 接 去 fetch 数 据 ; OIO 通 过 Netty 去 Fetch 数 据 ， 分 别 对 应 的 类 是 BasicBlockFetcherlterator 和 
NettyBlockFetcherlterator。 


Spark 的 团队 最 终 还 是 想 用 一 个 NIO 的 通信 层 来 解决 问题 ， 但 是 经 过 性 能 测试 ， 在 一 些 特定 情况 下 ， 如 集群 CPU 核 数 很 多 地 进行 大 规模 Shuffle 时 ，NIO 性 能 表现 不 如 OIO， 所 以 Spark 开 发 团队 目前 选择 
让 二 者 共存 。 


图 4-25 以 reduceByKey 为 例 介绍 这 个 算 子 对 应 的 Shuffle Fetch 阶 段 。 这 个 Job 分 为 两 个 stage， 在 Stage1 和 Stage0 之 间 做 Shuffle Fetch 的 操作 。HadoopRDD 的 每 个 B 代 表 HDFS 的 一 个 分 区 ， 读 入 后 
通过 映射 转化 为 MapPartitionsRDD， 做 完 Shuffle Write 之 后 ，Shuffle 数 据 按照 Bucket 存 储 磁 盘 。Stage0 的 每 个 Task 通 过 元 数据 知道 数据 存储 在 哪个 节点 ， 到 该 节点 Fetch 需 要 的 指定 Key 的 数据 。 在 
Stage0 将 Fetch 到 的 数据 形成 分 区 ， 所 有 分 区 形成 ShuffledRDD。 通 过 聚集 函数 将 ShuffledRDD 每 个 分 区 中 的 每 条 数据 存储 到 AppandOnlyMap (其 本 质 可 以 理解 为 一 个 哈 希 表 ) 中 ， 在 这 个 过 程 中 执行 
户 定义 的 聚集 函数 ， 做 聚集 操作 。 最 后 将 形成 的 结果 形成 分 区 ， 所 有 分 区 形成 MapPartitionsRDD。 
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图 4-25 ”reduceByKey 的 Shuffle Fetch 流 程 


MapPattitionsRDD 


“ppp Map Partition X 


Shuffle Fetch 和 聚集 Aggregate 的 操作 过 程 是 边 Fetch 数 据 边 处 理 ， 而 不 是 一 次 性 Fetch 完 再 处 理 。 通 过 Aggregate 的 数据 结构 ，AppandOnlyMap (一 个 Spark 封 装 的 哈 希 表 ) . Shuffle Fetch 得 到 
一 条 Key-Value 对 ， 直 接 将 其 放 进 AppandOnlyMap 中 。 如 果 该 HashMap 已 经 存在 相应 的 Key， 那 么 直接 处 理 用 户 自 定义 聚集 函数 ， 合 并 聚集 数据 。 


3.Shuffle Aggregator 


接 下 来 介绍 Aggregator (聚集 ) 。 我 们 都 知道 在 Hadoop MapReduce 的 Shuffle 过 程 中 ，Shuffle Fetch 过 来 的 数据 会 进行 归并 排序 (merge sort) ， 使 得 相同 Key 下 的 不 同 Value 按 序 归并 到 一 起 供 
Reducer 使 用 ， 但 是 Spark 认 为 并 不 是 所 有 的 情况 下 Aggregator 都 需要 排序 ， 强 制 的 排序 只 会 增加 不 必要 的 开销 。 


下 面 介绍 Spark 的 聚集 是 怎样 实现 的 。 


Spark 的 聚集 方式 分 为 两 种 : 不 需要 外 排 和 需要 外 排 的 。 不 需要 外 排 的 聚集 ， 在 内 存 中 的 AppendOnlyMap 中 对 数据 进行 聚集 ， 而 需要 外 排 的 聚集 ， 先 在 内 存 做 聚集 ， 当 内 存 数据 达到 阔 值 时 ， 将 数据 
排序 后 写 入 磁盘 ， 由 于 磁盘 的 每 部 分 数据 只 是 整体 的 部 分 数据 ， 最 后 再 将 磁盘 数据 全 部 进行 合并 和 聚集 。 实 现 上 ， 分 别 采 用 了 不 同 自 定义 容器 收集 聚集 。Aggregator 采 用 封装 好 的 数据 容器 存储 Key- 


Value， 本 质 上 是 一 个 哈 希 表 来 存储 。 


图 4-26 是 AppendOnlyMap 不 需要 外 排 的 聚集 。 容 器 本 质 上 可 以 理解 为 一 个 HashMap。 当 要 增加 数据 时 ， 首 先 对 关键 字 进 行 哈 希 运 算 查找 存放 位 置 ， 如 果 存 放 位 置 已 经 被 占用 ， 则 通过 探测 方法 来 找 


下 一 个 空闲 位 置 。 图 4-26 中 如 果 插入 Key1-Value3， 则 冲突 两 次 ， 需 要 再 哈 希 两 次 ， 找 到 新 位 置 插入 数据 。 


追加 数据 
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图 4-26 Aggregator 底 层 存储 结构 AppendOnlyMap 


当 进 行 迭 代 AppendOnlyMap 中 的 元 素 时 ， 从 前 到 后 扫描 输出 。 


如 果 Array 的 利用 率 达到 70%， 就 扩张 一 倍 ， 并 对 所 有 Key 进 行 再 哈 希 后 ， 重 新 排列 每 个 Key 的 位 置 。 


当 用 户 计算 count 时 ， 它 会 更 新 shuffle fetch 到 的 每 一 个 Key-Value 对 数据 ， 插 入 Map 中 ( 若 在 Map 中 没有 查找 到 ， 则 插入 其 中 ; 若 查找 到 ， 则 更 新 value 值 ) 。 数 据 来 一 个 处 理 一 个 ,减少 了 不 必要 的 
排序 开销 。 但 同时 需要 注意 ，Reducer 的 内 存 必 须 足 以 存放 这 个 分 区 的 所 有 Key 和 count 值 ， 因 此 需要 Worker 节 点 保证 提供 足够 内 存 。 


需要 外 排 的 聚集 的 原因 是 ， 如 果 是 Reduce 型 的 操作 ， 则 数据 不 断 被 计算 合并 ， 数 据 量 不 会 暴 增 。 考 虑 一 下 如 果 是 groupByKey 这 样 的 操作 ，Reducer 需 要 得 到 Key 对 应 的 所 有 Value。Sspark 需 要 将 Key- 
Value 全 部 存放 在 Hashmap 中 ， 并 将 Value 合并 成 一 个 数组 。 为 了 能 够 存放 所 有 数据 ， 必 须 确保 每 一 个 分 区 足够 小 ， 内 存 能 够 容纳 这 个 分 区 。 因 此 官方 建议 涉及 这 类 操作 时 ， 尽 量 增加 分 区 数量 ， 也 就 是 增 


加 Mapper 和 Reducer 的 数量 。 


增加 Mapper 和 Reducer 的 数量 可 以 减 小 分 区 的 大 小 ， 使 得 内 存 可 以 容纳 这 个 分 区 。Bucket 的 数量 由 Mapper 和 Reducer 的 数量 决定 ，Task 越 多 ，Bucket 增 加 得 越 多 ， 由 此 带 来 Writer 所 需 的 Buffer 缓 
存 也 会 更 多 。 增 加 Task 数 量 ， 又 会 带 来 缓冲 开销 更 大 的 问题 ， 正 是 这 个 原因 ，Spark 提 供 了 外 排 方案 。 下 面 通过 源码 剖析 内 排 和 外 排 两 种 方式 的 选择 逻辑 。 


下 面 代码 为 Aggregator 类 ， 其 封装 相应 的 聚集 函数 逻辑 : 


GDeveloperApi 
case class Aggregator[K, V, C] ( 
createCombiner: V => C, 
mergeValue: (C V) => C, 
mergeCombiners: (C, C) => 
/* 此 处 决定 内 存 容量 不 足 时 是 SUMA. 《而 这 又 是 通过 这 个 参数 米 确定 的 x/ 
private val externalSorting - 
SparkEnv.get.conf.getBoolean ("spark.shuffle.spill", true) 


def combineValuesByKey (iter: Iterator[ <: Product2[K, V]]. 
context: TaskContext) : Iterator[ (K, C)] = { 
if (! externalSorting) { 
/* 此 处 使 用 了 内 部 优化 的 数据 结 物 combiners 存 储 了 combiner 的 集合 ， 每 个 combiner 代 表 一 个 Key 和 对 应 Key 的 元 素 Seqx/ 
val combiners = new AppendOnlyMap[K, C] 
kv: Product2[K, V] = null 
l update = (hadValue: Boolean, oldValue: 
/看 处 理 的 是 上 是 第 一 个 元 素 ， 如 果 是 ， 则 需要 创建 集合 结构 ， "TUM TA Ls, JUS RTL Run 
if (hadValue) mergeValue (oldValue, kv. 2) else createCombiner (kv. : 


} 
while (iter.hasNext) { 
kv = iter.next () 
/* 如 果 不 采 用 外 排 ， 则 调用 AppendonlyMap 的 聚集 数据 结构 进行 存储 ， 有 兴趣 可 以 看 具体 的 实现 */ 
combiners.changeValue (kv. 1, update) 
} 
combiners.iterator 
} else { 
val combiners = new ExternalAppendOnlyMap[K, V, C] (createCombiner, mergeValue, mergeCombiners) 
wee ue nk 
= iter.next () 
i EEREN estere aprendon l wap 这 个 sparx 定 广 的 数据 结构 存储 聚集 数据 * y 


combiners.insert (k, v) 


47 ”本 章 小 结 


本 章 介绍 了 Spark 的 内 部 运行 机 制 。 主 要 介绍 了 Spark 的 执行 机 制 和 调度 机 制 ， 包 括 调度 与 任务 分 配 机制 、I/O 机 制 、 通 信 机 制 、 容 错 机 制 和 Shuffle 机 制 。Spark 在 执行 过 程 中 由 Driver 控 制 应 用 生命 持 
期 。 调 度 中 ，Spark 采 用 了 经 典 的 FIFO 和 FAIR 等 调度 算法 对 内 部 的 资源 实现 不 同 级 别 的 调度 。 在 Spark 的 MO 中 ， 将 数据 抽象 以 块 为 单位 进行 管理 ，RDD 中 的 一 个 分 区 就 是 需要 处 理 的 一 个 块 。 集 群 中 的 通信 
对 于 命令 和 状态 的 传递 极为 重要 ，Spark 通 过 AKKA 框 架 进行 集群 消息 通信 。Spark 通 过 Lineage 和 Checkpoint 机 制 进行 容错 性 保证 ，Lineage 进 行 重 算 操 作 ，Checkpoint 进 行 数据 宛 余 备份 。 最 后 介绍 了 
Spark 中 的 Shuffle 机 制 ，Spark 也 借鉴 了 MapReduce 模 型 ， 但 是 其 shuffle 机 制 进行 了 创新 与 优化 。 通 过 阅读 本 章 ， 读 者 可 以 深入 了 解 Spark 的 内 部 原理 ， 这 对 上 层 应 用 开发 与 性 能 调 优 是 十 分 重要 的 。 


介绍 完 Spark 内 部 的 执行 执行 机 制 ， 相 信 读 者 已 经 跃跃欲试 ， 希 望 开发 自己 的 Spark 程 序 ， 下 面 章节 将 引导 读者 配置 Spark 开 发 环境 ， 然 后 介绍 Spark 的 编程 实战 。 


第 5 章 ”Spark 开发 环境 配置 及 流程 


通过 前 面 的 介绍 ， 相 信 读 者 已 经 对 Spark 的 内 部 机 制 有 了 一 定 的 了 解 ， 本 章 将 介绍 如 何在 Spark 中 开发 应 用 程序 ， 以 及 如 何 进行 程序 的 编译 和 调试 。 在 编写 Spark 应 用 程序 之 前 ， 需 要 安装 和 配置 开发 环 


境 ， 一 般 可 以 选择 Intellj 或 Eclipse 进行 开发 和 调试 ， 使 用 SBT 编 译 项 


5.1 


SA 


Spark 应 用 开发 环境 配置 


Spark 的 开发 可 以 通过 Intellj 或 者 Eclipse 1DE 进 行 ， 在 环境 配置 的 开始 阶段 ， 还 需要 安装 相应 的 Scala 插 件 。 


.1 “使 用 Intellij 开 发 Spark 程 序 


下 面 介绍 如 何 使 用 Intellij IDEA 构 建 Spark 开 发 环境 和 源码 阅读 环境 。 由 于 Intellij 对 Scala 的 支持 更 好 ， 所 以 目前 Spark 开 发 团队 使 用 Intellj 作 为 开发 环境 。 
1. 配 置 开发 环境 


(1) 安装 JDK 


户 可 以 自行 安装 JDK6、JDK7。 官 网 地 址 为 : http://www.oracle.com/technetwork/java/javase/downloads/index.html 


下 载 后 ， 如 果 在 Windows 下 直接 运行 安装 程序 ， 则 自动 配置 环境 变量 ， 安 装 成 功 后， 在 CMD 的 命令 行 下 输入 java， 如 有 Java 版 本 的 日 志 信息 提示 ， 则 证 明 安 装 成 功 。 


如 果 在 Linux 下 安装 ， 下 载 JDK 包 解压 缩 后 ， 还 需要 配置 环境 变量 。 


在 /etc/profile 文 件 中 ， 配 置 环境 变量 这 样 程序 就 能 找到 JDK 的 安装 路 经 : 


export JAVA HOME-/usr/java/jdkl.6.0 27 

export JAVA BIN-/usr/java/jdk1.6.0 27/bin 

export PATH-SPATH: $JAVA HOME/bin 

export CLASSPATH-.: SJAVA HOME/lib/dt.jar: SUAVA HOME/lib/tools.jar 
export JAVA HOME JAVA BIN PATH CLASSPATH 


(2) 安装 Scala 


Spark 对 Scala 的 版 本 有 约束 ， 用 户 可 以 在 spark 的 官方 下 载 界 面 看 到 相应 的 Scala 版 本 号 。 下 载 指定 的 Scala 包 ， 官 网 地 址 为 : http://www.scala-lang.org/download/。 


(3) 安装 Intellij IDEA 


户 可 以 下 载 安装 最 新 版 本 的 Intellij， 官 网 地 址 为 : http://www.jetbrains.com/idea/download/。 


目前 Inteli 最 新 的 版 本 中 已 经 可 以 支持 新 建 sbt 工 程 ， 安 装 Scala 插 件 可 以 很 好 地 支持 Scala 开 发 。 


(4) 在 Intellij 中 安装 Scala 插 件 


IR] 


5-1) ， 然 后 点 击 相应 安装 按钮 进行 安装 ， 


在 Intellij 菜 单 中 选择 “Configure” 一 “Plugins” 一 “Browse repositories” 命 令 ， 在 弹出 的 界面 中 输入 “Scala” 搜 索 插件 ( 见 | 


重启 Intellij 使 配置 生效 。 


(& mM 
Scala — i i = 
> Schemas and DTDs (Qr sco ) Show: | All plugins = | 


Sort by: name ¥ 


Scopes 
Spelling 
> Tasks gf SBT NIE 
Template Data Languages 六 SET Executor install plugin 


> Verson Control 
XSLT File Associations Plugin tor Bia language support 
1DE Settings — —— — — — — — Vendor 
Appearance jeiBrains Inc. 
et hopinvwe Lethralns.com 
Mm Plugin homepage 
> Editor 
Emmet (Zen Coding) http jetbrains nel/confluence!dis play ERE cP ucin stor «int 
External Diff Tools SHIDEA 
Edernal Tools 
File and Code Templates 
File Types 
General 
HTTP Proxy 
Images 
Intentions 
JavaFX 
Keymap 
Live Templates 
Menus and Toolbars 
Notifications 
Passwords 
Palli Vmiables 


Quick Lists 

SBT 

Scala 

Server Certificates 


Check or uncheck a plugin to enable or disable it 


图 5-1 输入 “Scala” 搜 索 插 件 
2. 配 置 Spark 应 用 开发 环境 
1) 在 Intellij IDEA 中 创建 Scala Project， 名 称 为 SparkTest。 
2) 选择 菜单 中 的 “File” 一 “project structure” 一 “Libraries”， 然 后 选择 “+”， 导 入 spark-assembly_2.10-1.0.0-incubating-hadoop2.2.0jar。 
只 需 导 入 上 述 Jar 包 即 可 ， 该 包 可 以 通过 sbt/sbt assembly 命 令 生 成 ， 这 个 命令 相当 于 将 Spark 的 所 有 依赖 包 和 Spark 源 码 打 包 为 一 个 整体 。 
在 assembly/target/scala-2.10.4/ 目 录 下 生成 spark-assembly-1.0.0-incubating-hadoop2.2.0jar。 


3) 如 果 IDE 无 法 识别 Scala 库 ， 则 需要 以 同样 方式 将 Scala 库 的 jar 包 导入 ， 之 后 可 以 开始 开发 Scala 程 序 ， 如 图 5-2 所 示 。 本 例 将 Spark 默 认 的 示例 程序 SparkPi 复 制 进 文件 。 


Ele Edi View Navigate Code Analyze Refecior Build Run Tools VCS Window SET Commands Help 
Ca SparkTest | 71 src } @ SporkPiscola > keJ» ëma 


ijt Computes an approximstion to pi */ 
object Sperk?i [ 
® def main(args: Arrey[3tring]) 1 
$ val conf - new SparkCont().setAppName|"Spark Pi") 
val sparx = new SparkContext {conf} 
val slices = if (args.length > 0) args(0).toInt else 2 
val n = 100000 * slices 
val count ~ spark.parallelize(i to n, slices).map | i -> 
val x = random * 2 -1 
val y = rendom * 2 - 1 
if (x*x + y*y < 1| 1 clsc 0 
J.reduce( + .) 
println(*Pi is roughly ™ + 4.0 * count / n) 
apark.stop() 


lapueuuo) y — Spaloid uaren z3 


Ping aux se 


B Terminal S5TConsole — "T &TODO 


T | 中 | 天 ICRF?UTF8 & L1 G 


图 5-2 编写 程序 


3. 运 行 Spark 程 序 


(1) 本 地 运行 


编写 完 Scala 程 序 后 ， 可 以 直接 在 Intelli 中 以 本 地 (local) 模式 运行 ( 见 图 5-3) ， 方 法 如 下 。 


注意 ,设置 Program arguments 中 参数 为 local。 


T Share LJ Single instance only 


Main class: 


MM options: 


Program arguments: 


Working directory: DA projectiSparkTe:t 


Environment variables: 


Use classpath of mod... E SparkTest 


C Use alternative JRE: | 


[C] Enable capturing form snapshots 


* Before launch: Make 


十 
V Make 


C] Show this page 


Q Error: No main class specified 


| P Run | | Cancel | | Apply | | Help | 


图 5-3 ”以 local 模 式 运行 


在 Inte 川 中 点 击 Run/Debug Configuration 按 钮 ， 在 其 下 拉 列 表 选 择 Edit Configurations 选 项 。 在 Run 输 入 选择 界面 中 ， 如 图 5-3 所 示 ， 在 输入 框 Program arguments 中 输入 main 函 数 的 输入 参数 
local， 即 为 本 地 单机 执行 Spark 应 用 。 然 后 右键 选择 需要 运行 的 类 ， 点 击 Run 运 行 Spark 应 用 程序 。 


(2) 在 集群 上 运行 Spark 应 用 Jar 包 


如 果 想 把 程序 打 成 Jar 包 ， 通 过 命令 行 的 形式 在 Spark 集 群 中 运行 ， 可 以 按照 以 下 步骤 操作 。 


1) 选择 “File” 一 “Project Structure” 命 令 ， 然 后 选择 “Artifact”， 单 击 “+” 按 钮 ， 选 择 "Jar" 一 “From Modules with dependencies”， 如 图 5-4 所 示 。 


选择 Main 函 数 ， 在 弹出 的 对 话 框 中 选择 输出 Jar 位 置 ， 并 单 击 “OK” 按钮。 


在 图 5-4 中 点 击 From mudules with dependencies 后 将 会 出 现 如 图 5-5 所 示 的 输入 框 ， 在 其 中 的 输入 框 中 选择 需要 执行 的 Main 函 数 。 


在 图 5-5 所 示 的 界面 中 单 击 OK 按 钮 后 ， 在 图 5-6 所 示 的 对 话 框 中 通过 OutPut layout 中 的 “+” 选 择 依赖 的 Jar 包 。 


中 


Project Settings 一 一 
Project à 
Modules SE jsvaFx Application > 
Libreries BE JavaFx Preloader 
Facets 38 Android Applicaton 
CE = oo 

Platform Settings 
SDKs 
Global Libraries 


图 5-4 生成 Jar 包 第 一 步 


Project Structure 


Platform Settings - 
SDKs 
Global Libraries 


(O copy to the output directory and link via manifest 


Directory for META-INF/MANIFEST.MF: 


A C 


C) Include tests 


o E 


图 5-5 ”生成 Jar 包 第 二 步 


| 
(rel -———————— 1 M - 
Output director [DiprojechspakTeshoutiariactssparkretr | 


一 一 Platform Settings 一 一 
SDKs 

Global Libraries SparkTestjar — 00 | * PaspadTest — N 

É Extracted 'scala-actors- migrabon jer" (D:/5cata-? 10.4 ahi scala-library (Project Library) 
fi beracted 'scala-library.jar/" (D:/Scala-2. 10.4/lib) i spark-assembly-1.0.1-hadoop2.2.0 Project Librai 
Él Extracted 'scola-swingjar/ (0:/5cele- 2.10 4b) 

Él Ecract ed 'spark-assembly- 12.1 -hadoop2.2.0.jar^ (D:/ 
Él Extract ed 'spark-exemples-1.0.1 -hadoop2 2 0. jar (D-/ 
Ca 'SparkTest. compile output 


"SparkTest jar" manifest properties: 
Manifest Elle; — ASparkTestisr META-INP;MANIFEST.MF 


 .  ELINEENEEEEN 
[Ompa [ — — — — 1H 


C Show content of elements. [7 


图 5-6 ”生成 Jar 包 第 三 步 
2) 在 主 菜单 中 选择 “Build” 一 “Build Artifact” 命 令 ， 编 译 生 成 Jar 包 。 


3) 在 集群 的 主 节点 ， 通 过 下 面 命令 执行 生成 的 Jar 包 SparkTestjar。 


java -jar SparkTest.jar 


5.1.2 ”使 用 Eclipse 开发 Spark 程 序 


下 面 介绍 如 何 使 用 Eclipse 配置 和 开发 Spark 的 环境 ， 用 户 可 以 在 Windows 或 者 Linux 环 境 下 使 用 Eclipse 进行 开发 。 
1. 环 境 配置 

与 Intellij 配 置 环境 一 样 ， 需 要 用 户 下 载 安 装 JDK 和 Scala。 前 文 已 详细 介绍 ， 这 里 不 再 歼 述 。 

1) 下 载 Eclipse Scala IDE 插 件 ， 官 网 地 址 为 http://scala-ide.org/download/sdk.html， 可 在 官网 中 自行 下 载 安装 。 
2) 下 载 Eclipse[1]， 官 网 地 址 为 http://www.eclipse.org/downloads/。 

2. 安 装 Scala 插 件 


1) 将 Eclipse Scala 1DE 插 件 中 的 features 和 plugins 两 个 目录 下 的 所 有 文件 复制 到 Eclipse 解压 后 对 应 的 根 目录 中 。 重 启 Eclipse， 单 击 Eclipse 右 上 角 方 框 按钮 ， 如 图 5-7 所 示 ， 在 弹出 的 Open 
Perspective 对 话 框 中 查看 是 否 有 “Scala” 一 项 ， 如 果 有 则 直接 单 击 打开 。 


Bacs Repository Exploring 


far Java Type Hierarchy 
«p» Plug-in Development 
Ea Resource 

Sj Scala (default) 

5o Team Synchronizing 
X XML 


图 5-7 安装 插件 


2) 在 Eclipse 中 ， 选 择 Help 按 钮 ， 然 后 点 击 Install New Software 命 令 ， 在 打开 的 输入 框 里 填 入 http://download.scala-ide.org/sdk/e38/scala29/stable/site， 并 按 回 车 键 ， 可 看 到 以 下 内 容 ( 见 图 5- 
8 中 加 框 突出 部 分 ) ， 选 择 Scala IDE for Eclipse 和 Scala IDE for Eclipse development support 两 项 进行 安装 即 可 ， 如 图 5-8 所 示 。 


Available Software 
Check the items that you wish to install, 


Find more software by working with the "Available Software Sites" preferences. 


b [000 Scala IDE for Eclipse 

ò [| 000 Scala IDE for Eclipse development support 
b [C] 000 Scala IDE for Eclipse Source Feature 

b [C] 000 Scala IDE plugins (incubation) 

b [] 000 Sources 


[Ce 


Details 


[V] Show only the latest versions of available software IV] Hide items that are already installed 
[V] Group items by category What is already installed? 

C] Show only software applicable to target environment 

[V] Contact all update sites during install to find required software 


图 5-8 设置 安装 选项 
3) 直接 下 载 Scala IDE， 可 以 在 官网 http://scala-ide.org/ 下 载 。 现 在 的 ScalalDE 中 默认 自 带 了 Eclipse， 用 户 可 以 直接 使 用 。 


3. 开 发 Spark 程 序 


1) 在 安装 好 Scala 播 件 的 Eclipse 中 ， 选 择 File 一 New 一 Other 命令 ， 在 弹出 的 New 窗 口中 选择 Scala Wizard 一 Scala Project 命 令 ， 创 建 Scala 项 目 ， 如 图 5-9 所 示 。 


x) Scala - Scala IDE 

File Edit Source Refactor Navigate Search Project Scala Run Window Help 

MaA *-0:Q-w-Ó [] $] * $) » fe 

|E Package Explorer 2 | ies ^" D Bovine X 


号 "| Selecta wizard An outline is nct available. 


Wizards: 
|type filter tet 


b & CVs 

b & Git 

b È Java 

^ (& Maven 

b (& Plug-in Development 
a [E Sens Ward 


[S] Scala Application 


(Sj Scala Class 

© Scala Object 

G Scala Package Object 
(85 Scala Project 

QJ Scala Trait 


Location Type 


图 5-9 ”创建 Scala 项 目 


2) 右 击 新 建 工 程 ， 在 快捷 菜单 中 选择 Properties 命 令 ， 在 弹出 的 窗口 ( 见 图 5-10) 中 依次 选择 Java Build Path 一 Libraties 一 Add External JARs 即 可 ， 导 入 assembly/target/scala-2.9.3/ 目 录 下 的 
spark-assembly-1.0.0-incubating-hadoop2.2.0.jar (这 个 包 可 以 通过 sbt/sbt assembly 生 成 ， 也 可 以 在 预 编 译 版 本 的 Spark 中 找到 ) 。 


e Java - Eclipse 


File Edit Source Refactor Navigate Search Projet Run Window Help 


r-u 3 *"- *$-0-x«S&-u"ugb$-u-vv5 Quick Access EMELE 
| 8 Package Explorer £3 


= O| owne z| = Ols 
Bg 二 |! An outline is not available. EA 
4 车 SparkinAction | 
跨 sic 
b BÀ JRE System Library JaveSE- 1.7] 


type filter Leat Java Build Path 


D Resource 


ETRA (9 Source | Z5 Projects =À Libreries Wh Order and Eqport 


Java Build Path JARs and class folders on the build path: 
t Java Code Style 5 mÀ JRE System Library [JovaSE-1.7] 
D Java Compiler 


t Java Editor 
Javadoc Location 
Project References 
Run/Debug Settings 


图 5-10 ”增加 外 部 Jar 


3) 在 工程 中 创建 一 个 Scala 对 象 (Object) ， 命 名 为 WordCount， 在 Name 后 的 输入 框 填 入 WordCount， 如 图 


5-11 所 示 。 


Scala - Scala IDE 


Source Refactor Navigate Search Project Scala Run Window Help 
Ta *-0-Q-*$-c a U5-i 


38 Package Explorer 1$ m Ad 
4 EE SparklnAction 


(a sre f 
b =} Scala Library [2.11.2] Scala Object 


D BÀ JRE System Library |JavaSE-1.7] A, The use of the default package is discouraged. 


Source folder: SparklnAction/src 


Package: 


Name: WordCount 
Modifiers: © defsult — protected ( ) private 
Superclass: scala.AnyRef 


Traits and 
Interfaces: 


Which method stubs would you like to create? 
DD public static void main[Stringl] args) 
Constructors from superclass 
Inherited abstract methods 
Do you went to add comments? (Configure templates and default value here) 
C] Generate comment: 


[E Problems. :: 
D items 
Description Locsbon Type 


图 5-11 创建 Scala 类 


WordCount 是 一 个 测试 程序 ， 统 计 输入 的 词 频 ， 读 者 可 以 参考 第 6 章 来 了 解 。 


在 SparkTest 工 程 中 ， 右 击 WordCount.scala， 在 弹出 的 快捷 菜单 中 选择 Export 命 令 ， 然 后 在 弹出 的 窗口 中 选择 Java 一 JAR File 命 令 ， 将 文件 命名 为 WordCount。 最 后 生成 WordCound.jar 的 可 执行 Jar 
E. 


或 者 直接 在 SparkContext 中 将 第 一 个 参数 配置 为 local， 然 后 直接 在 Eclipse 点 击 run 按 钮 ， 本 地 运行 程序 。 


Qi Javai& & JF A Spark 42 A o 


将 Spark 开 发 程序 包 spark-assembly-1.0.0-incubating-hadoop2.2.0.jar 作 为 第 三 方 依赖 库 。 由 于 Scala 也 是 运行 在 JVM 之 上 ， 并 且 可 以 和 Java 合 编程 ， 所 以 可 以 按 原 有 方式 开发 Java 程 序 并 调用 Spark 
中 的 AP1。 


[1] 下 载 的 Eclipse 版 本 一 定 要 与 Eclipse Scala IDE 插 件 版 本 一 致 。 


5.1.3 ”使 用 SBT 构 建 Spark 程 序 


用 户 也 可 以 直接 使 用 SBT 构 建 Spark 应 用 。 在 这 个 应 用 中 ， 以 统计 包含 “Hello” 字 符 的 行 数 为 案例 。 


(1) 构建 开发 环境 


1) 下 载 并 解压 Spark 1.0.0 程 序 包 或 者 通过 git clone https://github.com/apache/spark 命 令 将 项 目 克 隆 到 Spark 根 目录 。 
2) 运行 sbt/sbt assembly 构 建 项 目 。 
3) 为 了 使 用 SBT 成 功 构建 Spark， 预 先 安装 SBT。 
(2) 开发 应 用 程序 
在 构建 Spark 以 后 ， 就 可 以 开始 开发 应 用 了 。 
1) 创建 目录 mkdir HelloWorld, 


2) 创建 一 个 .sbt 文 件 ， 在 目录 HelloWorld 中 创建 simple.sbt 文 件 。 


3) 在 .sbt 文 件 中 加 入 如 下 配置 项 配置 应 用 名 ， 版 本 和 依赖 等 信息 。 


name : = "HelloWorld Project" 
version : = "1.0" 

scalaVersion : = "2.10.3" 

libraryDependencies += "org.apache.spark" $$ "spark-core" $ "0.9.1" 
resolvers += "Akka Repository" at "http: //repo.akka.io/releases/ 


(3) 创建 代码 文件 


HelloWorld/src/main/scala/HelloWorld.scala 
import org.apache.spark.SparkContext 
import org.apache.spark.SparkContext. 
object HelloWorld ( 

def main (args: Array[String]) { 

val logFile = "src/data/sample.txt" 

val sc = new SparkContext ("local", "Simple App", "/path/to/spark-1.0.0-incubating", 
List ("target/scala-2.10/simple-project 2.10-1.0.jar") ) 

val logData = sc.textFile (logFile, 2) .cache O 

val numHello = logData.filter (line => line.contains ("Hello") ) .count O 
println ("Lines with the: $s".format (numHello) ) 

) 

} 


(4) 运行 程序 
1) 程序 创建 后 ， 返 回 到 HelloWorld 根 目录 。 
2) 运行 sbt package 进 行 构建 与 打包 。 


3) 运行 sbt run， 系 统 执行 构建 好 的 程序 。 


5.14 ”使 用 Spark Shell 开 发 运行 Spark 程 序 


因为 运行 Spark Shell 时 ， 会 默认 创建 一 个 SparkContext， 命 名 为 sc， 所 以 不 需要 在 Spark Shell 创 建新 的 SparkContext。 在 运行 Spark Shell 之 前 ， 可 以 设 定 参数 MASTER 指 定 Spark 应 用 提交 MASTER 
指向 的 相应 集群 或 者 本 地 模式 执行 。 可 以 通过 参数 ADD JARS 将 JARS 添 加 到 classpath 中 。 


如 果 希 望 spakr-shell 在 本 地 通过 4 核 的 CPU 运行 ， 需 要 以 如 下 方式 启动 。 


SMASTER-local[4] ./spark-shell 


这 里 的 4 是 指 启动 4 个 工作 线程 。 


如 果 要 添加 JARS， 可 以 用 如 下 方法 实现 : 


$MASTER=local [4] ADD JARS-code.jar ./spark-shell 


在 Spark Shell 中 ， 输 入 下 面 代 码 ， 读 取 dir 文 件 ， 以 输出 文件 中 有 多 少数 据 项 。 


scala>val text-sc.textFile ("dir") 
Scala»text.count 


按 回 车 键 ， 即 可 运行 Shell 中 的 程序 。 


5.2 ”远程 调试 Spark 程 序 

本 地 调试 Spark 程 序 和 传统 的 调试 单机 的 Java 程 序 基本 一 致 ， 读 者 可 以 参照 原来 的 方式 调试 ， 关 于 单机 调试 本 书 暂 不 介绍 。 对 于 远程 调试 服务 器 上 的 Spark 代 码 ， 首 先 确 保 在 服务 器 和 本 地 的 Spark 版 本 
一 致 。 需 按 前 文 介绍 的 方法 预先 安装 好 JDK 和 git。 

1. 编 译 Spark 

在 服务 器 端 和 本 地 计算 机 下 载 Spark 项 目 。 


通过 下 面 命令 克隆 一 份 Spark 源 码 。 


git clone https: //github.com/apache/spark 


然后 针对 指定 的 Hadoop 版 本 进行 编译 。 配 置 代码 如 下 : 


SPARK HADOOP VERSION=2.3.0 sbt/sbt assembly 


2. 在 服务 器 端的 配置 
1) 根据 相应 的 Spark 配 置 指定 版 本 的 Hadoop 并 启动 Hadoop。 


2) 对 编译 好 的 Spark 进 行 配置 ， 在 conf/spark-env.sh 文 件 中 进行 如 下 配置 。 下 面 代码 配置 了 Spark 调 试 所 需 的 Java 参 数 。 


export SPARK JAVA OPTS-" -agentlib: jdwp-transport-dt socket, server=y, suspend-y, address-9999" 


其 中 suspend=y 表 示 设置 为 需要 挂 起 的 模式 。 这 样 ， 当 启动 Spark 的 作业 时 ， 程 序 会 自动 挂 起 ， 等 待 本 地 的 IDE 附 加 (attach) 到 被 调试 的 应 用 程序 上 。address 后 接 的 是 开放 等 待 连接 的 端口 号 。 


3. 启 动 Spark 集 群 和 应 用 程序 


1) 启动 Spark 集 群 。 


./sbin/start-all.sh 


2) 启动 需要 调试 的 程序 ， 以 Spark 中 自 带 的 HdfsWordCount 为 例 。 


MASTER-spark: //10.10.1.168: 7077 ./bin/run-example org.apache.spark.examples.streaming.HdfsWordCount hdfs: //localhost: 9000/test/test.txt 


执行 后 程序 挂 起 ， 并 等 待 本 地 的 Intellij 进 行 连接 ， 如 图 5-12 所 示 。 


[ spark-1.9.1-bin-hadoop21$ MASTER=spark://19.19.1.168:7977 ./b 
in/run-example org.apache.spark.examples.streaming.HdfsWordCount hdfs://localhos 


t:9880/test/test.txt i . - : A 
Spark assembly has been built with Hive, including Datanucleus jars on classpath 


Listening for transport dt socket at address: 9999 


532 ”远程 调试 


4. 配 置 本 地 IDE 


配置 并 连接 服务 器 端 挂 起 的 程序 。 


号 Port 设 置 为 9999， 将 主机 IP 地 址 的 Host 改 为 服务 器 的 地 址 10.10.1.168， 同 


在 Inteli 中 点 击 run 一 edit configuration， 在 弹出 的 Run/Debug Configuration 界 面 中 选择 remote， 在 默认 配置 中 将 端 


时 用 选择 Debugger mode 为 Attach (附加 ) 方式 ， 如 图 5-13 所 示 。 


选择 附加 方式 后 ， 在 程序 中 设置 断 点 即 可 进行 调试 。 


Name | Unnamed 


Command line arguments for running remote JYM 
-agentlib:Jdwp=transport=dt_30ocket, server=y, suspend=n, address=9999 


For JDK 14x 
-Kdebug -Xrunjdwp:transporz-dt socket,server-y,3uspenden, address-99399 


For JDK 1.3.x or earlier 
-Knoagent -Djava.compiler=NONE -Xdebug 


THriuujdwpitzonapurt-du auckcU,23crvcrTy,cuazpcudeu,addzc22723292 
Settings 
Transport: ®© Socket O Shared memory 


Debugger mode: (9) Attach C) Listen 


Search sources using module's classpath: | «whole project» 


* Before launch 
a 


[oc ore) amv | [Her | 


图 5-13 ”远程 调试 设置 


5.3 ”Spark 编 译 


当 用 户 需 要 对 源码 进行 二 次 开发 时 ， 需 要 对 源码 进行 增 量 编译 。 通 过 下 面 的 方式 可 以 实现 编译 和 增 量 编译 。 


用 户 可 以 通过 Spark 的 默认 构建 工具 SBT 编 译 和 打包 源码 。 
1. 克 隆 Spark 源 码 


命令 如 下 : 


git clone https: //github.com/apache/spark 


这 样 从 Github 将 Spark 源 码 下 载 到 本 地 ， 建 立 本 地 的 仓库 ， 如 图 5-14 所 示 。 


sourcej$ git clone https://github.com/apache/spa 
Initialized empty Git repository in /home/hucheng/yanj1e/source/spark/.g1t/ 
remote: Counting objects: 119763, done. 
remote: Compressing objects: 100% (598/598), done. 


remote: Total 119763 (delta 16), reused 64 (delta 16) 
eceiving objects: 1005 (119763/119763), 73.20 MiB | 3.20 MiB/s, done. 
esolving deltas: 1009% (54923/54923), done. 


5-14 git clone Spark Æ 
2. 编 译 Spark 


在 Spark 项 目的 根 目录 内 执行 编译 和 打包 命令 ， 命 令 如 下 : 


sbt/sbt assembly 


如 图 5-15 所 示 ， 执 行 过 程 中 会 解析 依赖 和 下 载 需要 的 依赖 lar 包 。 执 行 完 成 后 ， 将 所 有 Jar 包 打包 为 一 个 Jar 包 ， 即 可 运行 Spark 集 群 和 示例 了 。 


[ :- spark]$ sbt/sbt assembly 

Using /usr/jàva/jdk1.7.0 51 as default JAVA HOME. 

Note, this will be overridden by -java-home if it is set. 

Attempting to fetch sbt 

THHRHHRHHHHHRHHHHHHHHHHHHRHHHHHHHRHHHRHHHHHHHHRNHHHRHRHHHHHHHHHHHHHRHHHHNHHE 100.08 

Launching sbt from sbt/sbt-launch-0.13.5.jar 

[info] Loading project definition from /home/' /yanjie/source/spark/project/project 

[info] Updating (file:/home/hucheng/yan] 1e/source/spark/project/project/]spark -bui1ld-build... 

[info] Resolving org.fusesource.jansifjans1;1.4 ... 

[info] Done updating. 

[info] Compiling 1 Scala source to /home/| ` /yanjie/source/spark/project/project/target/scala-2.10/sbt-0.13/classes... 
[warn] there were 2 deprecation warning(s); re-run with -deprecation for details 

[warn] one warning found 

[info] Loading project definition from /home/. . 1 .sbt/8.13/staging/ec3aa8139111944cc5f2/sbt-pom- reader/project 
[warn] Multiple resolvers having different access mechanism configured with same name 'sbt-plugin-releases'. To avoid confli 
ct, Remove duplicate project resolvers (^resolvers') or rename publishing resolver (^publishTo'). 

[info] Updating ifile:/home/hucheng/.sbt/0.13/staging/ec3aa8f39111944cc512/sbt -pom- reader/project/Tsbt-pom-reader-build.. 
[info] Resolving org.fusesource.jansif£jans1;1.4 ... 

[info] Done updating. 

[info] Loading project definition from /home/! ' RAR 

[info] Updating (file:/home/hucheng/yanj 1e/source/spark/project/Tspark-style.. 

[info] Resolving org.fusesource.jansifjansi;1.4 ... 

[info] Done updating. 

[info] Updating ifile:/home/l /yanjie/source/spark/project/Tplugins.. 

[info] Resolving org. fusesource. jansi£jansi ; L4. 

[info] downloading http: //repo.scala-sbt .org/scalasbt/sbt-plugin-releases/com. ee 
d3si9n/sbt-unidoc/scala 2.10/sbt 0.13/08.3.1/jars/sbt-unidoc.jar ... 

[info] [SUCCESSFUL ] com.eed3si9ngsbt-unidoc;0.3.1!sbt-unidoc.jar (4893ms) 

[info] Done updating. 

[info] Compiling 1 Scala source to /home/l / yanjie/source/spark/project/spa 
rk-style/target/scala-2.10/classes... 

[info] Compiling 3 Scala sources to /home/* lyanj1e/source/spark/project/ta 
rget/scala-2.10/sbt-8.13/classes... 

[warn] there were 1 deprecation warning(s); re-run with -deprecation for details 

[warn] one warning found 

[info] Set current project to spark- parent (in build file:/home/L - ideni p aede! sl 

[info] Updating (file:/home/l VIRO ADU PCR ADRIKI esha flume-sink.. 

[info] Updating {file:/home/t ' --/yanjie/source/spark/]core. . 

[info] Resolving org.fusesource.jansifjans1;1.4 ... 

[info] downloading http: //repol.maven.org/maven2/com/typesafe/genjavadoc/genj avadoc-plugin 2.10.4/0.7/genjavadoc-plugin 2.10 
.4-0.7.]ar ... 


图 5-15 ”编译 Spatk 源 码 


3. 增 量 编译 


在 有 些 情况 下 ， 用 户 需要 修改 源码 ， 修 改 之 后 如 果 每 次 都 重新 下 载 Jar 包 或 者 重新 编译 一 遍 全 部 源码 ， 就 会 很 浪费 时 间 ， 用 户 可 以 通过 下 面 的 增 量 编译 方法 ， 只 编译 改变 的 源码 。 


1) 编译 打包 一 个 assembly 的 Jar 包 。 命 令 如 下 。 


$ sbt/sbt clean assembly 


2) 这 时 的 Spark 程 序 已 经 可 以 运行 。 用 户 可 以 进入 Spark Shell 执 行程 序 。 命 令 如 下 : 


$ ./bin/spark-shell 


3) 配置 export SPARK_PREPEND_CLASSES 参 数 为 true， 开 启 增 量 编译 模式 。 命 令 如 下 : 


$ export SPARK PREPEND CLASSES-true 


4) 继续 使 用 Spark Shell 中 的 程序 。 通 过 下 面 命令 进入 Spark Shell, 


$ ./bin/spark-shell 


5) 这 时 可 以 对 代码 进行 修改 和 二 次 开发 。 


/* 
天 发 


6) 编译 Spark 源 码 。 


$ sbt/sbt compile 
/* 
开发 


* 


$ sbt/sbt compile 


7) 解除 增 量 编译 模式 。 


$ unset SPARK PREPEND CLASSES 


8) 返回 正常 使 用 Spark Shell 的 情景 。 通 过 下 面 命令 进入 Spark Shell 


$ ./bin/spark-shell # Back to normal, using Spark classes from the assembly jar 


9) 如 果 不 想 每 次 都 开启 一 个 新 的 sbt 会 话 ， 就 可 以 在 compile 命 令 前 加 上 ~。 命 令 如 下 : 


$ sbt/sbt ~compile 


B 
dB 
a 
E: 
lr 
Dn 
E 
E 
m 


需要 运行 下 面 的 命令 ， 结 果 如 图 5-16 所 示 。 


*-org.codenaus .jackson: Jackson-core- as 


| 
| *-oro:oro:2.0.8 

|  *-xmlenc:xmlenc:0.52 
| 


t-org.apache .mesos:mesos:0.18.1 

*-org.eclipse.jetty:jetty-plus:8.1.14.v26131031 

| *-org.eclipse.jetty.orbit:javax.transaction:1.1.1.v201105210645 

*-org.eclipse.jetty:jetty-jndi:8.1.14.v20131031 
*-org.eclipse.jetty.orbit:javax.mail.glassficsh:1.4.1.v201005022020 
| *-org.eclipse.jetty.orbit:javax.activation:1.1.0.v201105071233 
t- 


| 

| 

| 

| *t-org.eclipse.jetty:jetty-server:8.1.14.v20131031 

| *-org.eclipse.jetty.orbit:javax.servlet:3.0.0.v201112011016 
| *-org.eclipse.jetty:jetty-continuation:8.1.14.v20131031 

| +-org.eclipse.jetty:jetty-http:8.1.14.v20131031 

| *-org.eclipse.jetty:jetty-10:8.1.14. v20131031 

| *-org.eclipse.jetty:jetty-ut1l:8.1.14.v20131031 

中 三 


org.eclipse.jetty:jetty-webapp:8.1.14.v20131031 
*-org.eclipse.jetty:jetty-servlet:8.1.14.v20131031 

| *-org.eclipse.jetty:jetty-security:8.1.14.v20131031 

| *-org.eclipse.]jetty:jetty-server:8.1.14.v20131031 

| *-org.eclipse.jetty.orbit:javax.servlet:3.0.0.v201112011016 
| *-org.eclipse.]jetty:jetty-continuation:8.1.14.v29131031 

| *-org.eclipse.jetty:jetty-http:8.1.14.v20131031 

l t-org.eclipse.jetty:jetty-10:8.1.14.v20131031 

| +-org.eclipse.jetty:jetty-util:8.1.14.v201319031 

十 = 


-org.eclipse.jetty:jetty-xml:8.1.14.v28131031 
*-org.eclipse.jetty:jetty-ut11:8.1.14.v20131031 


org.eclipse.]etty:jetty-security:8.1.14.v20131831 
--org.eclipse.jetty:jetty-servoer:8.1.14.v20131031 
*-org.eclipse.jetty.orbit:javax.servlet:3.0.8.v201112011016 
*-org.eclipse.jetty: jetty- continuation:8.1.14.v20131031 
*-org.eclipse.jetty:]Jetty-http:8.1.14.v20131031 
*-org.eclipse. Jetty: Jetty- 10:8.1.14.v20131831 
*-org.eclipse.jetty:jetty-ut11:8.1.14.v28131031 


org.eclipse. jetty: jetty server:8.1.14.v20131031 
*-org.eclipse.jetty.orbit:javax.servlet:3.0.0.v201112011816 
*-org.eclipse.]etty:jetty-continuation:8.1.14.v20131031 
*-org. epee Lies jet up 8. 1.14. v20131031 

+-0 ^ 


| 
| 
| 
| 
| 
| 
| 
| 
| 
| 
| 
| 
| 
| 
| 
| 
| 
| 
| 
| 
| 
| 
| 
| 
十 
| 
| 
| 
| 
| 
| 
| 
4 
| 
| 
| 


图 5-16 ”查看 依赖 


$ # sbt 
$ sbt/sbt dependency-tree 


使 用 Maven 查 看 依赖 图 ， 需 要 运行 下 面 的 命令 。 


$ # Maven 
$ mvn -DskipTests install 
$ mvn dependency: tree 
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由 于 Spark 使 用 SBT 作 为 项 目 管理 构建 工具 ，SBT 的 配置 文件 中 配置 了 依赖 的 jar 包 网 络 路 径 ， 在 编译 或 者 生成 指定 类 型 项 目 时 ， 需 要 从 网 络 下 载 jar 包 ， 需 要 预先 安装 Git。 在 Linux 操 作 系统 或 者 
Windows 操 作 系统 中 (可 以 下 载 Git Shell， 在 Git Shell 中 进行 命令 行 操作 ) 通过 sbt/sbt gen-idea 命 令 ， 生 成 Inte 川 项 目 文件 ， 然 后 在 Intellij IDEA 中 直接 通过 “Open Project” 选 项 打开 项 目 。 


1) 克隆 Spark 源 码 。 命 令 如 下 : 


git clone https: //github.com/apache/spark 


2) 生成 项 目 。 


3) 在 所 需 的 软件 安装 好 后 ， 在 Spark 源 代码 根 目录 下 输入 以 下 代码 。 


sbt/sbt gen-idea 


这 样 SBT 会 自动 下 载 依赖 包 和 编译 源 文件 编译 ， 并 生成 Inte 几 j 所 需 的 项 目 文件 。 


如 果 在 Eclipse 下 ， 则 需要 运行 如 下 代码 : 


Sbt/sbt gen-eclipse 


这 样 SBT 会 自动 下 载 依赖 包 和 编译 源 文件 编译 ， 并 生成 Eclipse 所 需 的 项 目 文件 。 用 户 就 可 以 在 IDE 中 查看 源码 了 。 


5.5 本章 小 结 


本 章 主要 介绍 了 Spark 应 用 程序 的 开发 流程 以 及 如 何 编译 和 调试 Spark 程 序 。 用 户 可 以 选用 能 够 很 好 支持 Scala 项 目的 Intellij IDE。 如 果 之 前 经 常 使 用 Eclipse 开 发 Java 程 序 ， 也 可 以 在 Eclipse 中 安装 Scala 
IDE 插 件 ， 开 发 与 调试 Spark 程 序 。 由 于 Spark 项 目 基于 SBT 构 建 ， 用 户 可 以 创建 SBT 项目， 开发 应 用 。 在 应 用 的 开发 过 程 中 ， 需 要 进行 调试 诊断 问题 。 在 本 章 最 后 部 分 介绍 的 远程 调试 方法 可 以 很 好 地 帮助 | 
户 调试 Spark 程 序 。 


通过 本 章 的 介绍 ， 读 者 可 以 搭建 Spark 开 发 环境 ， 下 面 将 通过 Spark 编 程 实战 进入 Spark 程 序 的 开发 之 旅 。 


第 6 章 “Spark 编程 实战 


前 面 章节 已 经 介绍 了 很 多 关于 Spark 的 基础 知识 、 运 行 机 制 ，Spark 的 集群 安装 与 配置 方法 ，Spark 内 核 是 由 Scala 语 言 开 发 的 ， 当 然 用 户 也 可 以 使 用 java 和 Python 进行 开发 。 本 章 将 从 题目 、 程 序 和 应 
出 发 ,介绍 如 何 使 用 Spark 进 行程 序 开发 ， 以 及 如 何 编写 Spark 程 序 。 


6.1 WordCount 


WordCount 是 大 数据 领域 的 经 典范 例 ， 如 同 程序 设计 中 的 Hello World 一 样 ， 是 一 个 入 门 程序 。 本 节 主 要 从 并 行 处 理 的 角度 出 发 ， 介 绍 设计 Spark 程 序 的 过 程 。 


1. 实 例 描述 


输入 : 


Hello World Bye World 
Hello Hadoop Bye Hadoop 
Bye Hadoop Hello Hadoop 


输出 : 


«Bye, 3> 
<Hadoop, 4» 
<Hello, 3> 
<World, 2> 


2. 设 计 思路 


在 map 阶 段 会 将 数据 映射 为 : 


<Hello, 1> 
<World, 1> 
<Bye, 1> 

<World, 1> 
<Hello, 1> 
<Hadoop, 1> 
<Bye, 1> 

<Hadoop, 1> 
<Bye, 1> 

<Hadoop, 1> 
<Hello, 1> 
<Hadoop, 1> 


在 reduceByKey 阶 段 会 将 相同 key 的 数据 合并 ， 并 将 合并 结果 相 加 。 


<Bye，1，1，1> 
<Hadoop，1，1，1，1> 
<Hello, 1, 1, 1> 
<World, 1, 1> 


3. 代 码 示例 


WordCount 的 主要 功能 是 统计 输入 中 所 有 单词 出 现 的 总 次 数 ， 编 写 步骤 如 下 。 


(1) 初始 化 


程序 名 称 、 


创建 一 个 SparkContext 对 象 ， 该 对 象 有 4 个 参数 : Spark master 位 


A 


需要 引入 下 面 两 个 文件 。 


录 和 Jar 存 放 位 置 。 


Spark 安 装 


import org.apache.spark. 

import SparkContext. _— ` 

val sc = new SparkContext (args (0) , 
System.getenv ("SPARK HOME") , 
Seq (System.getenv ("SPARK TEST JAR") ) ) 


"WordCount", 


(2) 加 载 输入 数据 


从 HDFS 上 读 取 文本 数据 ， 可 以 使 


SparkContext 中 的 textFile 函 数 将 输入 文件 转换 为 一 个 RDD， 该 函数 采 


Hadoop 中 的 TextlnputFormat 解 析 输 入 数据 。 


Val textRDD = sc.textFile (args (1) ) 


textFile 中 的 每 个 Hadoop Block 相 当 于 一 个 RDD 分 区 。 


(3) 词 频 统 计 


对 于 WordCount 而 言 ， 首 先 需要 从 输入 数据 中 的 每 行 字符 串 中 解析 出 单词 ， 然 后 分 而 治之 ， 将 相同 单词 放 到 一 个 组 中 ， 统 计 每 个 组 中 每 个 单词 出 现 的 频率 。 


val result = textRDD.flatMap( 
case (key, value) => value.toString () .split ("\\s+") ; 
).map (word => (word, 1) . reduceByKey ( + ) 


聚合 到 一 起 进行 函数 运算 。 


(4) 存储 结果 


可 以 使 


SparkContext 中 的 saveAsTextFile 函 数 将 数据 集 保 存 到 HDFS 目 录 下 。 


其 中 ，flatMap 函 数 每 条 记录 转换 ， 转 换 后 ， 如 果 每 个 记录 是 一 个 集合 ; 则 将 集合 中 的 元 素 变 为 RDD 中 的 记录 ; map 函 数 将 一 条 记录 映射 为 另 一 条 记录 ; reduceByKey 函 数 将 key 相 同 的 关键 字 的 数 拉 


result.saveAsSequenceFile (args (2) ) 


4. 应 用 场景 


， 如 统计 过 去 一 年 中 访客 的 浏览 量 、 


WordCount 的 模型 可 以 在 很 多 场景 中 使 
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Top K 算 法 有 两 步 ， 一 是 统计 词 频 ， 二 是 找 出 词 频 最 高 的 前 K 个 词 。 
1. 实 例 描述 
假设 取 Top 1， 则 有 如 下 输入 和 输出 。 


输入 : 


最 近 一 段 时 间 相同 查询 的 数量 和 海量 文本 中 的 词 频 等 。 


Hello World Bye World 
Hello Hadoop Bye Hadoop 
Bye Hadoop Hello Hadoop 


输出 : 


词 Hadoop 词 频 4 


2. 设 计 思路 


首先 统计 WordCount 的 词 频 ， 将 数据 转化 为 ( 词 ， 词 频 ) 的 数据 对 ， 第 二 个 阶段 采 


分 治 的 思想 ， 求 出 RDD 每 个 分 区 的 Top K， 最 后 将 每 个 分 区 的 Top K 结 果 合并 以 产生 新 的 集合 ， 在 集合 中 统计 出 


Top K 的 结果 。 每 个 分 区 由 于 存储 在 单机 的 ， 所 以 可 以 采用 单机 求 Top K 的 方式 。 本 例 采 上 


3. 代 码 示例 


Top K 算 法 示例 代码 如 下 : 


堆 的 方式 。 也 可 以 直接 维护 一 个 含 K 个 元 素 的 数组 ， 感 兴趣 的 读者 可 以 参考 其 他 资料 了 解 堆 的 实现 。 


import org.apache.spark.SparkContext 
import org.apache.spark.SparkContext. 
object TopK ( 

def main (args: Array[String]) ( 


/* 执 行 Wordcount， 统 计 出 最 高 频 的 词 */ 


val spark = new SparkContext ("local", "TopK", 
System.getenv ("SPARK HOME") , SparkContext.jarOfClass (this.getClass) ) 
val count = spark.textFile ("data") .flatMap (line => 


line.split (" ") ) .map (word => 
(word, 1) ) .reduceByKey ( + ) 
/* 统 件 RDD 每 不 分 区 内 的 Top KENZ “一 
val topk = count.mapPartitions (iter => { 
while (iter.hasNext) { 
putToHeap (iter.next () ) 


getHeap () .iterator 


} 
) .collect () 


/* 将 每 个 分 区 内 统计 出 的 TopK 查 询 合 并 为 一 个 新 的 集合 ， 统 计 出 TopK 查 询 */ 


val iter = topk.iterator 
while (iter.hasNext) { 
putToHeap (iter.next () ) 


val outiter-getHeap () .iterator 
/* 输 出 TopK 的 值 */ 
println ("Topk fH : ") 
while (outiter.hasNext) ( 
println ("Wn 词 频 ; "+outiter.next O . 14" 
} 
spark.stop () 
} 
} 
def putToHeap (iter : (String, Int)) { 
/* 数 据 加 入 含 k 个 元 素 的 堆 中 */ 


def getHeap O : Array[ (String, Int) ] 
/* 获 取 含 k 个 元 素 的 堆 中 的 元 素 */ 
val a-new Array[ (String, Int) ] O 


4. 应 用 场景 


Top K 的 示例 模型 可 以 应 用 在 求 过 去 一 段 时 间 消 费 次 数 最 多 的 消费 者 、 访 问 最 频繁 的 IP 地 址 和 最 近 、 更 新 、 


6.3 中 位 数 


ii: 


"routiter.next () 


A 


海量 数据 中 通常 有 统计 集合 中 位 数 的 计算 需求 ， 读 者 可 以 通过 以 下 示例 了 解 Spark 求 中 位 数 的 方式 。 


1. 实 例 描述 


若 有 很 大 一 组 数据 ， 数 据 的 个 数 是 N， 在 分 布 式 数据 存储 情况 下 ， 找 到 这 N 个 数 的 中 位 数 。 


数据 输入 是 以 下 整 型 数据 。 


最 频繁 的 微 博 等 应 


1、2、3、4、5、6、8、9、11、12、34 


2. 设 计 思路 


海量 数据 求 中 位 数 有 很 多 解决 方案 。 假 设 海量 数据 已 经 预先 排序 本 例 的 解决 方案 为 : 将 整个 数据 空间 划分 为 K 个 桶 。 第 一 轮 ， 在 mapPartition 阶 段 先 将 每 个 分 区 内 的 数据 划分 为 K 个 桶 ， 统 计 桶 中 的 数 和 


zi 


量 ， 然 后 通过 reduceByKey 聚 集 整个 RDD 每 个 桶 中 的 数据 量 。 第 二 轮 ， 根 据 桶 统计 的 结果 和 总 的 数据 量 ， 可 以 判读 数据 落 在 哪个 桶 里 ， 以 及 中 位 数 的 偏 移 量 (offset) 。 针 对 这 个 桶 的 数据 进行 排序 或 者 采 


Top K 的 方式 ， 获 取 到 偏 移 为 offset 的 数据 。 


3. 代 码 示例 


import org.apache.spark.(SparkContext, SparkConf} 
import org.apache.spark.SparkContext.rddToPairRDDFunctions 


ry 
object Median { 
def main (args: Array[String]) { 


val conf = new SparkConf () .setAppName ("Spark Pi") 


val spark = new SparkContext (conf) 
val data = spark.textFile ("data") 


/* 将 数据 逻辑 划分 为 10 个 桶 ， 这 里 用 户 可 以 自行 设置 桶 数量 ， 统 计 每 个 桶 中 落 入 的 数据 量 */ 


val mappeddata -data.map (num => ( 
(num/1000 , num) 

p 

val count = mappeddata.reduceByKey ( (a ， 
atb 

D .collect () 


b) 


=> { 


/* 根 据 总 的 数据 量 ， 逐 次 根据 桶 序号 由 低 到 高 依次 累加 ， 判 断 中 位 数落 在 哪个 


桶 中 ， 并 获取 到 中 位 数 在 桶 中 的 偏 移 量 */ 
val sum count-count.map (data => ( 
data. 2 
p.sum ` 
var temp = 0 
var index - 0 
var mid = sum count/2 
for ( i <- 0 to 10) { 
temp=temp+count (i) 
if (temp >= mid) { 
index=i 
break 
} 


l 
/* 中 位 数 在 桶 中 的 偏 移 量 */ 


val offset = temp - mid 


p 
/* 获 取 到 中 位 数 所 在 桶 中 的 偏 移 量 为 offset 的 数 ， 也 就 是 中 位 数 */ 


val result = mappeddata.filter (num => num. 1 一 index ) .takeOrdered (offset) 


println ("Median is " + result (offset) ) 
spark.stop O 


4. 应 用 场景 


统计 海量 数据 时 ， 经 常 需要 预 估 中 位 数 ， 由 中 位 数 大 致 了 解 某 列 数据 ， 做 机 器 学 习 和 数据 挖掘 的 很 多 公式 中 也 | 


mu. 


到 中 位 数 。 
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倒 排 索引 (inverted index) 源 于 实际 应 用 中 需要 根据 属性 的 值 来 查找 记录 。 在 索引 表 中 ， 
排 索引 文件 ， 简 称 倒 排 文 件 (inverted file) 。 


录 确 定 ， 因 而 称 为 倒 排 索 引 。 将 带 有 倒 排 索引 的 文件 称 为 倒 


每 一 项 均 包含 一 个 属性 值 和 一 个 


有 


于 


属性 值 的 各 记录 的 地 址 。 由 于 记录 的 位 置 由 属性 值 确 定 ， 而 不 是 由 记 


其 基本 结构 如 图 6-1 所 示 。 


搜索 引擎 的 关键 步骤 是 建立 倒 排 索引 。 相 当 于 为 互联 网 上 几 干 亿 页 网 页 做 了 一 个 索引 ， 与 书籍 目录 相似 ， 


1. 实 例 描述 


图 6-1 倒 排 索引 基本 结构 


输入 为 一 批文 档 集合 ， 合 并 为 一 个 HDFS 文 件 ， 以 分 隔 符 分 隔 。 


户 想 看 与 哪 一 个 


题 相关 的 章节 ， 直 接 根据 目录 即 可 找到 相关 的 页 面 。 


Idl The Spark 


1d3 The Spark 


输出 如 下 单词， 文档 ID 合并 字符 串 ) 。 


Spark idl id2 
Hadoop id3 id4 
The idl id3 id6 


2. 设 计 思 路 


首先 进行 预 处 理 和 分 词 ， 转 换 数 据 项 为 (文档 ID， 文 档 词 集合 ) 的 RDD， 然 后 将 数据 映射 为 ( 词 ,文档 ID) 的 RDD， 去 重 ， 最 后 在 reduceByKey 阶 段 聚 合 每 个 词 的 文档 ID。 


3. 代 码 示例 


倒 排 索引 的 示例 代码 如 下 所 示 : 


import org.apache.spark.SparkContext 
import scala.collection.mutable. 
object InvertedIndex { 
def main (args : Array[String]) { 
c spark - new Se ("local" 


"TopK", 


ystem.getenv ("SPARK_HOME") , Sp: arkContext. jarOfClass (this.getClass) 
mrs 数据 格式 为 一 个 大 的 HDFS 文 件 趾 用 \n 分 隔 不 向 的 文件 ， 用 \t 分 隔 文件 TOR GEHE HS, Hi" SEBOGIUSIMI */ 
val words = spark.textFile ("dir") .map (file => file.split ("Nt") ) .map (item => 


(item (0) , item (1) ) 
D .flatMap (file => { 


/* 将 数据 项 转换 为 LinkedList[( 词 ， 文档 id) ] 的 数据 项 ， 并 通过 flatmap 将 RDD 内 的 数据 项 转换 为 〈 词 ， 


val list = new LinkedList[ (String. 


String) ] 


val words = file. 2.split (" ") .iterator 


while (words.hasNext) ( 
listtwords.next O 
2j 
list 
D .distinct O 


/* 将 Ci, 文档 ID) 的 数据 进行 聚集 ， 相 同 词 对 应 的 文档 ID 统计 到 一 
， 形 成 简单 的 倒 排 索引 */ 


( 词 ， "文档 ID1， 文 档 ID2 , XCPÍIDS... 
words.map (word => { 
(word. 2, word. 1) 
D .reduce ( (a b) => { 
ar"NE'"b 
} ) .saveAsTextFile ("index") 


起 ， 形 成 */ 


文档 ID) */ 


4. 应 用 场景 


搜索 引擎 及 垂直 搜索 引擎 中 需要 构建 倒 排 索引 ， 


文本 分 析 中 有 的 场景 


需要 构建 倒 排 索引 。 


6.5 CountOnce 


假设 HDFS 只 存储 一 个 标号 为 ID 的 Block， 每 份 数据 保存 2 个 备份 ， 这 样 就 有 2 个 机 器 存储 了 相同 的 数据 。 其 中 ID 是 小 于 10 亿 的 整数 。 若 有 一 个 数据 块 丢失 ， 则 需要 找到 哪个 是 丢失 的 数据 块 。 


在 某 个 时 间 ， 如 果 得 到 一 个 数据 块 I1D 的 列表 ， 能 否 快速 地 找到 这 个 表 中 仅 出 现 一 次 的 ID? 即 快速 找 出 出 现 故 障 的 数据 块 的 ID。 


问题 前 述 : 已 知 一 个 数组 ， 数 组 中 只 有 一 个 数据 是 出 现 一 遍 的 ， 其 他 数据 都 是 出 现 两 遍 ， 将 出 现 一 次 的 数据 找 出 。 
1. 实 例 描述 


输入 为 Block ID, 


LAASI Lon iLa 


输出 为 : 


100 


2. 设 计 思 路 


利用 异 或 运算 将 列表 中 的 所 有 1D 异 或 ， 之 后 得 到 的 值 即 为 所 求 ID。 先 将 每 个 分 区 的 数据 异 或 ， 然 后 将 结果 进行 异 或 运算 。 


3. 代 码 示例 


CountOnce 的 代码 示例 如 下 : 


import org.apache.spark.SparkContext 
import org.apache.spark.SparkContext._ 
* 


object NumOnce ( 
def computeOneNum (args: Array[String]) { 
val spark = new SparkContext ("local[1]",  "NumOnce", 
System.getenv ("SPARK HOME") , SparkContext.jarOfClass (this.getClass) ) 
val data = spark.textFile (" "data" ) 
EAD KIN SRE ROETE, 最 后 在 reduceByKey 阶 段 ， 将 各 分 区 蜡 或 运算 的 结果 再 做 异 或 运算 合并 。 侦 数 次 出 现 的 数字 ， 异 或 运算 之 后 为 0， 奇 数 次 出 现 的 数字 ， 异 或 后 为 数字 本 身 */ 
val result = data.mapPartitions (iter => ( 
var temp = iter.next () 
while (iter.hasNext) { 
temp = temp^iter.next () 


} 
Seq ( (1, temp) ) .iterator 
p .reduceByKey (_ ^ ) .collect O 
println ("num appear once is : "4result (0) ) 
} 
} 


4. 应 用 场景 


数据 块 损坏 检索 。 例 如 ， 每 个 数据 块 有 两 个 副本 ， 有 一 个 数据 块 损坏 ， 需 要 找到 那个 数据 块 。 


6.6 ”倾斜 连接 


并 行 计算 中 ， 我 们 总 希望 分 配 的 每 一 个 任务 (task) 都 能 以 相似 的 粒度 来 切 分 ， 且 完成 时 间 相差 不 大 。 但 是 由 于 集群 中 的 硬件 和 应 用 的 类 型 不 同 、 切 分 的 数据 大 小 不 一 ， 总 会 导致 部 分 任务 极 大 地 拖 慢 
了 整个 任务 的 完成 时 间 。 硬 件 不 同 暂且 不 论 ， 下 面 举 例 说 明 不 同 应 用 类 型 的 情况 ， 如 Page Rank 或 者 Data Mining 中 的 一 些 计 算 ， 它 的 每 条 记录 消耗 的 成 本 不 太一 样 ， 这 里 只 讨论 关于 关系 型 运算 的 Join 连 
接 的 数据 倾斜 状况 。 


数据 倾斜 原因 如 下 。 


1) 业务 数据 本 身 的 特性 。 
2) Key 分 布 不 均匀 。 
3) 建 表 时 考虑 不 周 。 


4) 某 些 SQL 语句 本 身 就 有 数据 倾斜 。 


数据 倾斜 表现 如 下 。 


任务 进度 长 时 间 维 持 ， 查 看 任务 监控 页 面 ， 由 于 其 处 理 的 数据 量 与 其 他 任务 差异 过 大 ， 会 发 现 只 有 少量 (1 个 或 几 个 ) 任务 未 完成 。 


1. 实 例 描述 


输入 : 


A (数据 倾斜 ) ， 表 B 


输出 : 


表 C (AR，B 连 接 后 的 表 ) 


2. 设 计 思路 


数据 倾斜 有 很 多 解决 方案 ， 本 例 简 要 介绍 一 种 实现 方式 。 假 设 表 A 和 表 B 连 接 ， 表 A 数据 倾斜 只 有 一 个 Key 倾 斜 。 首 先 对 A 进行 采样 ， 统 计 出 最 倾斜 的 Key。 将 A 表 分 隔 为 A1 只 有 倾斜 Key，A2 不 包含 倾 
斜 Key， 然 后 分 别 与 B 连 接 。 


3. 代 码 示例 


倾斜 连接 的 代码 示例 如 下 : 


import org.apache.spark.SparkContext 
import org.apache.spark.SparkContext._ 
* 
/ 
object SkewJoin { 
def main (args : Array[String]) { 
val skewedTable = left.execute () 
ves spark = new SparkContext ("local", "TopK", 
ystem.getenv ("SPARK HOME") , SparkContext.jarOfClass (this.getClass) ) 
1 TURRIS RR de / 
val skewTable = spark. textFile ("skewTable") 
ara a uM 
spark.textFile PESE M") 
VERHÉGR BUS AGE GT 采样 ， 假 设 只 Tec yit 最 严重 ， 获 取 倾 斜 最 大 的 key*/ 
val sample = skewTable. ET (false, 0.3, 9) .groupByKey () .collect () 
val moner = sample.map (rows => (rows. 2.size, rows. 1) ) .maxBy (rows => 
rows. 
VARI UR xDD, 一 个 为 只 含有 倾斜 key 的 表 ， 一 个 为 不 含有 倾斜 key 的 表 */ 
/* 分 别 与 原 表 连接 */ 
Val maxKeySkewedTable = skewTable.filter (row => { 
buildSideKeyGenerator (row) == maxrowKey 
p 
val mainSkewedTable = skewTable.filter (row => ( 
" (buildSideKeyGenerator (row) == maxrowKey) 


me 与 原 表 连 接 */ 
val maxKeyJoinedRdd = maxKeySkewedTable.join (Table) 
val mainJoinedRdd = mainSkewedTable.join (Table) 
/* 将 结果 合并 */ 


sc.union (maxKeyJoinedRdd, mainJoinedRdd) 


4. 应 用 场景 


在 大 数据 分 析 平 台中 ， 经 常 遇 到 | 数据 倾斜 问题 ， 读 者 可 以 参照 相应 的 思路 处 理 数据 倾斜 的 处 理 。SQL on Hadoop 系 统 中 也 需要 处 理 数据 倾斜 问题 。 


6.7 ”股票 趋势 预 沉 


本 例 将 介绍 如 何 使 用 Spark 构 建 实时 数据 分 析 应 用 [1， 以 分 析 股票 价格 趋势。 


本 例假 设 已 预先 连接 了 Spark Streaming。 读 者 可 以 阅读 介绍 BDAS 的 章节 预先 了 解 相关 概念 。 


第 一 步 ， 需 要 获取 数据 流 ， 本 例 使 用 JSON/WebSocket 格 式 呈 现 6 种 实时 市 场 金融 信息 。 


第 二 步 ， 需 要 知道 如 何 使 用 获取 到 的 数据 流 ， 本 例 不 涉及 专业 的 金融 知识 ， 但 可 以 在 这 个 应 用 中 通过 价格 改变 规律 ， 预 测 价格 趋势 。 


1. 实 例 描述 


本 例 通 过 使 用 scalawebsocket 库 (Github 网 址 为 https://github.com/pbuda/scalawebsocket) 访问 WebSocket。scalawebsocket 库 只 支持 Scala 2.10。 获 取 网 上 的 金融 数据 流 。 


输入 为 : 股票 名 和 相应 价格 。 


Croda International PLC - 24.82 - 24.82 
ASOS PLC - 47.485 - 47.485 

Arian Silver Corp - 0.0435 - 0.0435 
Medicx Fund Ltd - 0.7975 - 0.7975 
Supergroup PLC - 10.73 - 10.73 

Diageo PLC - 20.07 - 20.075 

Barclays PLC - 2.891 - 2.8925 

QinetiQ Group PLC - 1.874 - 1.874 

CSR PIC ~ 5.7 = 5.7 

United Utilities Group PLC - 7.23 - 7.23 


输出 为 : 处 于 增长 趋势 的 股票 名 称 。 


Real estate 

Telecommunication 

Graphics, publishing & printing media 
Environmental services & recycling 
Agriculture & fishery 


2. 设 计 思 路 


通过 Spark Streaming 的 时 间 窗 口 ， 增 加 新 数据 ， 减 少 上 日 数据 。 本 例 中 的 reduce 函 数 用 于 对 所 有 价格 改变 求 和 (有 正 向 的 改变 和 负 向 的 改变 ) 。 之 后 希望 看 到 正 向 的 价格 改变 数量 是 否 大 于 负 向 的 价格 
改变 数量 ， 这 里 通过 改变 正 向 数据 将 计数 器 加 1， 改 变 负 向 的 数据 将 计数 器 减 1 进行 统计 ， 从 而 统计 出 股票 的 趋势 。 


3. 代 码 示例 


通过 本 书 的 BDAS 章 节 ， 假 设 读者 已 经 对 Spark 和 Spark Streaming 有 了 初步 了 解 ， 下 面 将 介绍 整个 应 用 的 设计 与 开发 。 


(1) 接收 流 数据 


为 了 在 Spark 中 处 理 流 数 据 ， 需 要 创建 一 个 StreamingContext 对 象 (Spark Streaming 中 的 上 下 文 对 象 ) ， 作 为 流 处 理 的 上 下 文 。 之 后 注册 一 个 输入 流 (InputDStream) ， 它 会 初始 化 一 个 接收 器 
(Receiver) 对 象 (Spark 默 认 提供 了 许多 类 型 的 接收 器 ， 如 Twitter、Akka Actor、ZeroM Q 等 ) 。 由 于 默认 没有 网 页 套 接 字 (WebSocket) 的 实现 ， 所 以 本 例 将 自 定义 这 个 类 ， 获 取 网 页 流 数据 。 


本 例 通 过 使 用 scalawebsocket 库 (Github 网 址 为 https://github.com/pbuda/scalawebsocket) 访问 WebSocket。scalawebsocket 库 只 支持 Scala 2.10, 


读者 可 以 选用 支持 Scala 2.10 的 Spark 版 本 。 


通过 下 面 的 代码 实现 一 个 简单 的 trait， 进 而 使 用 WebSocket ( 它 产生 所 有 可 用 的 股票 序列 ) 。 


import scalawebsocket .WebSocket 
trait PriceWebSocketClient { 
import Listings. 
def createSocket (handleMessage: String => Unit) = { 
websocket = WebSocket () .open ("ws: //localhost: 8080/1.0/marketDataWs") .onTextMessage (m => ( 
handleMessage (m) 
p 
subscriptions.foreach (listing => websocket.sendText ("(V'subscribeV': (" + listing + "}}") ) 
} 
Var websocket: WebSocket = _ 
} 
classPriceEchoextendsPriceWebSocketClient{ 
createSocket (println) 
} 


为 了 能 够 让 Spark 正 确 挂 接 到 WebSocket， 并 不 断 接 收 消息 ， 可 以 通过 实现 一 个 接收 器 (Receiver) 达到 这 个 目的 。 由 于 接收 的 数据 符合 通用 的 网 络 协议 ， 所 以 通过 继承 NetworkReceiver 类 实现 接收 
器 。 需要 创建 一 个 块 生成 器 (block generator) ， 并 将 接收 到 的 消息 附加 到 块 生成 器 中 。 


classPriceReceiverextendsNetworkReceiver[String]withPriceWebSocketClient( 
lazy val blockGenerator = new BlockGenerator (StorageLevel.MEMORY ONLY SER) 
protected override def onStart O { 

blockGenerator.start 

createSocket (m => blockGenerator 4- m) 

} 

protected override def onStop O { 

blockGenerator.stop 

websocket . shutdown 

} 

$ 


到 目前 为 止 ， 获 取 的 流 数据 是 以 JSON 格 式 存储 的 文本 字符 串 ， 通 过 抽取 数据 中 重要 的 部 分 进而 用 其 创建 case 类 ， 这 样 数据 处 理 将 变 得 更 容易 。 创 建 一 个 PriceUpdate case 类 。 


import scala.util.parsing.json.JSON 

import scala.collection.JavaConversions 

import java.util.TreeMap 

case class PriceUpdate (id: String, price: Double, lastPrice: Double) 
object PriceUpdate( 

val lastPrices = JavaConversions.asMap (new TreeMap[String, Double]) 
def apply (text: String): PriceUpdate = { 

val (id, price) = getlIdAndPriceFromJSON (text) 

val lastPrice: Double = lastPrices.getOrElse (id, price) 
lastPrices.put (id, price) 

PriceUpdate (id, price, lastPrice) 


} 
/* 此 方法 解析 与 处 理 JSON 数 据 格式 ， 暂 不 獒 述 */ 
def getlIdAndPriceFromJSON (text: String) = // snip - simple JSON processing 


} 

/* 这 时 ， 还 不 能 找到 金融 序列 属性 ， 不 能 获取 之 前 的 价格 信息 。 

同时 ， 需 要 更 新 接收 器 类 为 下 面 的 情况 ， 解 析 输 入 数据 */ 

import spark.streaming.dstream.NetworkReceiver 

import spark.storage.Storagelevel 

class PriceReceiver extends NetworkReceiver[PriceUpdate]withPriceWebSocketClient( 
lazy val blockGenerator - new BlockGenerator (StorageLevel.MEMORY ONLY SER) 
protected override def onStart O { B T 
blockGenerator.start 

createSocket (m => { 

val priceUpdate = PriceUpdate (m) 

blockGenerator += priceUpdate 

p 

} 

protected override def onStop O { 

blockGenerator.stop 

websocket . shutdown 


还 需要 实现 一 个 输入 流 (InputDStream) ， 这 个 输入 流 需要 实现 getReceiver 方 法 ， 当 外 部 调用 这 个 方法 时 ， 返 回 一 个 初始 化 好 的 价格 接收 器 。 


object streamextendsNetworkInputDStream[PriceUpdate] (ssc) ( 
override def getReceiver () : NetworkReceiver[PriceUpdate] = ( 
newPriceReceiver () 

} 

ij 


将 之 前 的 程序 加 入 Spark Streaming 的 主干 程序 中 。 


/* 创 建 Sspark Streaming 上 下 文 */ 

val ssc = new StreamingContext ("local", "datastream", Seconds (15), "C:/software/spark-1.0.0", List ("target/scala-2.10.3-/spark-data-stream 2.10.3-1.0.jar") ) 
/* 创建 并 注册 输入 流 */ 
Ssc.registerInputStream (stream) 
/* 启 动 流 数据 处 理 引 擎 */ 


ssc.start O 


上 面 这 段 代 码 初始 化 了 流 数据 处 理 的 上 下 文 ， 并 配置 了 应 用 。 


local 表 示 在 本 地 执行 ，datastream 是 应 用 的 名 称 ，Seconds (15) 定义 批 处 理 的 时 间 片 ，"C:/software/spark-1.0.0" 定 义 Spark 的 路 径 ，List ("target/scala-2.10.3=/spark-data-stream 2.10.3- 
1.0jar") 定义 需要 的 Jar 包 。 


项 目 结构 要 为 SBT 的 项 目 格式 ， 之 后 在 根 目录 运行 SBT package run 即 可 运行 ， 这 样 将 会 编译 ， 打 包 程序 生成 target/scala-2.10.3=/spark-data-stream_2.10.3-1.0.jar， 然 后 Spark 应 用 使 用 Jar 中 的 
类 。 


下 面 代码 为 到 目前 为 止 应 用 的 完整 代码 。 


override def main (args: Array[String]) { 

import Listings. 

val ssc = new StreamingContext ("local", "datastream", Seconds (15), "C:/software/spark-0.7.3", List ("target/scala-2.9.3/spark-data-stream 2.9.3-1.0.jar") ) 
object stream extends NetworkInputDStream[PriceUpdate] (ssc) { 

override de fgetReceiver () : MNetworkReceiver[PriceUpdate] = ( 

newPriceReceiver () 

} 

H 

Ssc.registerInputStream (stream) 

stream.map (pu => listingNames (pu.id) +" - "+ pu.lastPrice + " - " + pu.price) .print O 
ssc.start O 

} 


控制 台 将 会 产生 以 下 输出 。 


Croda International PLC - 24.82 - 24.82 
ASOS PLC - 47.485 - 47.485 


Arian Silver Corp - 0.0435 - 0.0435 
Medicx Fund Ltd - 0.7975 - 0.7975 
Supergroup PLC - 10.73 - 10.73 

Diageo PLC - 20.07 - 20.075 

Barclays PLC - 2.891 - 2.8925 

QinetiQ Group PLC - 1.874 - 1.874 

CSR PLC - 5.7 - 5.7 

United Utilities Group PLC - 7.23 - 7.23 


(2) 处 理 流 数据 


通过 上 文 的 初始 化 和 数据 接收 ， 已 经 可 以 源源 不 断 地 获取 数据 了 。 下 面 介绍 如 何 处 理 和 分 析 数 据 。 


下 面 程序 可 将 数据 转化 为 类 股 ， 改 变价 格 和 频 度 的 序列 。 第 一 次 处 理 时 ， 将 每 个 数据 项 转化 为 〈 类 股 ， 价 格 改变 ，1) 的 元 组 。 通 过 下 


面 的 代码 完成 这 个 过 程 。 


val sectorPriceChanges = stream.map (Pu => (listingSectors (pu.id) ，  (pu.price - pu.lastPrice, 1) ) ) 


现在 就 可 以 使 用 reduceByKeyAndWindow 函 数 了 ， 这 个 函数 允许 用 户 使 用 滑动 窗口 处 理 数据 ， 时 间 窗 口内 的 数据 将 


使 用 reduce 函 数 处 理 ， 使 


使 用 一 个 reduce 函 数 和 反 向 reduce 函 数 。 


um 


这 样 每 次 在 时 间 窗 口内 迭代 时 ，Spark 都 对 新 数据 进行 reduce 处 理 ， 需 要 丢弃 的 旧 数 据 不 再 使 用 reduce 处 理 。 


Spark 需 要 做 的 就 是 撤销 之 前 最 左 侧 | 旧 数 据 对 整个 reduce 数 据 结果 的 改变 ， 增 加 右 侧 新 的 reduce 数 据 对 整个 reduce 数 和 


居 结 果 产 生 新 的 改变 。 


Key-Value 对 中 的 Key 作 为 reduce 的 关键 字 ， 这 里 将 


需要 写 一 个 reduce 和 inverse reduce 函 数 。 在 本 例 中 ，reduce 函 数 用 于 对 所 有 价格 改变 求 和 (有 正 向 的 改变 和 负 向 的 改变 ) 。 为 了 看 到 正 向 的 价格 改变 数量 大 于 负 向 的 价格 改变 数量 ， 这 里 可 以 通过 改 


变 正 向 数据 ， 将 计数 器 加 1， 改 变 负 向 的 数据 ， 将 计数 器 减 1 达到 这 个 效果 。 代 码 如 下 。 


val reduce = (reduced: (Double, Int) , pair: (Double, Int) ) => ( 
if (pair. 1 > 0) (reduced. 1 + pair. 1, reduced. 2 + pair. 2) 
else (reduced. 1 + pair. 1, reduced. 2 - pair. 2) 


val invReduce - (reduced: (Double, Int), pair: (Double, Int) ) => { 
if (pair. 1 > 0) (reduced. 1 + pair. 1, reduced. 2 - pair. 2) 
else (reduced. 1 + pair. 1, reduced. 2 + pair. 2) 


} 


val windowedPriceChanges = sectorPriceChanges.reduceByKeyAndWindow (reduce, invReduce, Seconds (5*60) , 


Seconds (15) ) 


现在 通过 上 文 介绍 的 函数 ， 已 经 可 以 构建 一 个 reduce 流 处 理应 用 ， 这 个 应 用 能 够 感知 价格 波动 和 趋势 。 由 于 只 希望 呈现 出 正 向 波动 最 剧烈 的 一 些 类 股 。 可 以 过 滤 流 数据 ， 保 留 下 正 向 波动 的 类 股 ， 然 后 


将 数据 元 组 Key-Value 的 Key 改 变 为 可 以 排序 ， 统 计 出 波动 最 大 的 类 股 的 属性 。 本 例假 设 正 向 波动 剧烈 与 否 的 权 
Key。 最 后 ， 将 数据 按照 新 的 Key 打 印 出 最 大 的 5 个 类 股 。 


为 价格 改变 大 小 乘 以 价格 改变 计数 器 值 ， 将 Value 中 的 两 个 值 组 合计 算出 的 结果 作为 新 的 


import scala.collection.immutable.List 
import spark.SparkContext. 

import spark.streaming. E 

import spark.streaming.StreamingContext. - 
import spark.streaming.dstream. 

object DataStreamextendsApp( E 

val reportHeader = 
Positive Trending 


".stripMargin 
override def main (args: Array[String]) { 
import Listings. 

import System. 


val ssc = new StreamingContext ("local", "datastream", Seconds (15),  "C:/software/spark-0.7.3", List ("target/scala-2.9.3/spark-data-stream 2.9.3-1.0.jar") ) 


object stream extends NetworkInputDStream[PriceUpdate] (ssc) { 
override def getReceiver O : NetworkReceiver[PriceUpdate] = ( 
newPriceReceiver () 

} 

} 

ssc.checkpoint ("spark") 

ssc.registerInputStream (stream) 

val reduce = (reduced: (Double, Int), pair: (Double, Int) ) => { 
if (pair. 1 > 0) (reduced. 1 + pair. 1, reduced. 2 + pair. 2) 

else (reduced. 1 + pair. 1, reduced. 2 - pair. 2) 7 


} 

val invReduce = (reduced: (Double, Int), pair: (Double, Int) ) => { 
if (pair. 1 > 0) (reduced. 1 + pair. 1, reduced. 2 - pair. 2) 

else (reduced. 1 + pair. 1, reduced. 2 + pair. 2) 


} 


val sectorPriceChanges = stream.map (pu => (listingSectors (pu.id) ,  (pu.price - pu.lastPrice, 1) ) ) 
val windowedPriceChanges = sectorPriceChanges.reduceByKeyAndWindow (reduce, invReduce, Seconds (5*60) , 
val positivePriceChanges = windowedPriceChanges.filter(case ( , (_, count) ) => count > 0} 


val priceChangesToSector = positivePriceChanges.map(case (sector, (value, count) ) => (value * count, 
val sortedSectors = priceChangesToSector.transform (rdd —» rdd.sortByKey (false) ) .map ( . 2) 
sortedSectors.foreach (rdd => ( E 

println ("""| 
|Positive Trending (Time 


ssc.start () 


Seconds (15) ) 


sector) } 


Positive Trending (Time: 1375269240035 ms) 
Real estate 

Telecommunication 

Graphics, publishing & printing media 
Environmental services & recycling 
Agriculture & fishery 


Positive Trending (Time: 1375269255035 ms) 


Real estate 

Graphics, publishing & printing media 
Environmental services & recycling 
Agriculture & fishery 

Electrical appliances & components 


Environmental services & recycling 
Agriculture & fishery 
Electrical appliances & components 


Vehicles 
Precious metals & precious stones 


场景 


4. 应 上 


读者 可 以 通过 这 个 示例 ， 开 发 自己 的 流 数据 分 析 应 


Spark 是 整个 Spark 生 态 系统 的 底层 核心 引擎 ， 单 一 的 Spark 框 架 并 不 能 完成 所 有 计算 范式 任务 。 如 果 有 更 复杂 的 数据 分 析 需 求 ， 就 需 
助 GraphX 构 建 内 存 的 图 存储 结构 ， 然 后 通过 BSP 模 型 迭代 算法 。 为 了 进行 机 器 学 习 ， 需 要 借助 MLlib 底 
将 流 数据 转换 为 RDD， 输 入 与 分 析 流 数据 。 如 果 进 行 SQL 查 询 或 者 交互 式 分 析 ， 就 需要 借助 Spark SQL 这 个 查询 引擎 ， 将 SQL 翻 译 为 Spark Job。 相 应 的 示例 


。 数 据 源 可 以 是 爬虫 抓 取 的 数 


D] AR AAA XE: James Phillpotts, Real-time Data Analysis Using Spark, 29 Jul 2013. 


68 本章 小 结 


通过 本 章 的 介绍 ， 相 信 读 者 已 经 可 以 独立 编写 Spark 


WordCount 是 大 数据 程序 的 入 门 程序 ， 程 序 虽然 简 
介绍 的 股票 趋势 预测 应 


例 了 。Spark 使 


， 但 其 中 的 程序 并 行 化 思想 很 值得 借鉴 。 连 接 示 例 ， 让 读者 可 以 进一步 了 解 如 何 进行 数据 统计 ，Top K， 倒 排 索引 ， 查 找 中 位 数 、 倾 斜 连接 。 最 后 


较为 复杂 ， 但 是 通过 整个 架构 可 以 体会 Spark 是 如 何 处 理 实际 问题 的 。 


居 ， 也 可 以 是 消息 中 间 件 输出 的 数据 等 待 。 


读者 对 Spark 编 程 有 了 一 定 的 基础 之 后 ， 需 要 使 


Benchmark 对 应 用 进行 


的 基准 测试 。 


全 景 介绍 ， 读 者 可 以 通过 大 数据 Benchmark 进 行 Spark 系 统 或 应 上 


准 测试 ， 进 而 调整 算法 。 需 


进行 系统 选 型 时 ， 也 需要 使 


Scala 书 写 ， 不 熟悉 的 读者 可 以 预先 学 习 Scala 语 法 ， 这 样 编写 Spark 程 序 才 会 游 思 有 余 。 


第 7 章 Benchmark 使 用 详解 


Benchmark 作 为 一 种 评价 方式 ， 在 整个 计算 机 领域 有 着 长 期 的 应 


various computer systems simply by looking at their specifications.Therefore, tests were developed that allowed comparison of different architectures.”Benchmark 在 计算 机 领域 应 


的 就 是 性 能 测试 ， 主 要 测试 负载 的 执行 时 间 、 传 输 速 度 、 香 吐 量 、 资 源 占用 率 等 。 


大 数据 领域 Benchmark 标 准 尚未 统一 ， 生 产 环境 和 科研 实验 室 迫 切 需要 大 数据 Benchmark 进 行 基准 测试 ， 对 大 数据 分 析 系统 选 型 和 系统 二 次 


Benchmark 还 不 多 ， 用 户 可 以 根据 


行 应 用 开发 和 系统 二 次 开发 。 


7.4 _ Benchmark 简 介 


Benchmark 性 能 


Benchmark 的 种 类 很 多 ， 有 些 偏重 于 硬件 ， 有 些 偏重 于 软件 ， 还 有 些 是 对 整个 系统 进行 综合 度量 和 评价 。 


我 们 为 什么 要 使 


运行 状况 。 对 


同时 利 


查询 生成 器 生成 指定 数据 库 的 SQL 方言 。 


同时 ，Benchmark 对 一 个 领域 的 技术 发 展 很 有 积极 意义 ， 例 如 ， 在 数据 库 领 域 ，TPC 的 Bench 已 经 成 为 


选择 Benchmark 需 要 有 明确 的 目的 。 当 用 于 产品 发 布 时 ， 就 应 该 
Benchmark， 而 针对 其 他 的 数据 库 又 有 TPC-H 等 系列 的 genchmark 供 


户 使 用 。 


在 现在 的 Bigdata 领 域 ，Benchmark 标 准 尚 在 制定 ， 但 是 有 一 些 Benchmark 得 到 部 分 应 用 。 


下 面 介绍 现 有 的 几 款 大 数据 的 Benchmark， 


户 可 以 根据 | 


己 的 情况 选 


7.4.1 Intel Hibench 与 Berkeley BigDataBench 


首先 来 介绍 Hibench。 


1.Hibench 


Hibench[1] 是 由 Intel 开 发 的 一 个 针对 Hadoop 的 基准 测试 工 


应 用 的 Hadoop Benchmark。 因 为 Hibench 针 对 Hadoop， 如 果 想 使 


这 个 领域 主流 和 权威 的 Benchmark 进 行 评估 。 同 时 有 些 Benchmark 只 适 


， 对 Spark 或 者 Spark 上 的 系统 进行 性 能 评测 。 


同时 有 些 厂 商 没有 真实 环境 的 数据 ， 需 要 利 
户 来 说 就 是 可 以 根据 Benchmark 的 结果 对 比 不 同 三 商 的 不 同 产品 ， 更 加 方便 和 透明 地 选择 系统 。 


准 测试 本 质 上 就 是 生成 模拟 数据 或 真实 数据 ， 在 系统 上 运行 典型 负载 (Workload) ， 进 而 暴露 系统 瓶颈 和 性 能 优势 ， 最 终 完成 系统 评测 。 


借助 Spark 的 上 层 组 件 。 例 如 ， 为 了 分 析 大 规模 图 数据 ， 需 要 借 
层 实 现 的 SGD 等 优化 算法 ， 进 行 搜索 和 优化 。 分 析 流 数据 需要 借助 Spark Streaming 的 流 处 理 框 架 ， 


户 可 以 参考 BDAS 章 节 和 示例 进行 学 习 。 


Benchmark 进 行 性 能 评测 。 下 面 将 对 大 数据 领域 的 genchmark 


。 在 维基 百科 上 的 解释 是 “As computer architecture dvanced, it became more difficult to compare the performance of 


最 成 功 


发 进行 指导 。Spark 刚 刚 兴起 ， 针 对 Spark 进 行 开发 的 
己 的 需求 进行 Benchmark 选 型 ， 并 可 以 借鉴 其 他 Benchmark 的 数据 生成 器 生成 数据 集 ， 开 发 相应 的 典型 工作 负载 完成 对 Spark 的 基准 测试 ， 诊 断 系 统 问 题 ， 更 好 地 进 


Benchmark 呢 ? 其 实 Benchmark 对 软 硬 件 系统 生产 厂商 和 用 户 都 是 很 有 价值 的 。 生 产 厂 商 利 用 Benchmark 在 产品 的 开发 过 程 中 诊断 性 能 瓶颈 ， 随 时 进行 调 优 和 优化 。 产 品 发 布 之 


后 ， 也 能 够 根据 评测 结果 进行 很 有 说 服 力 的 宣传 ， 说 明 产 品 基于 哪个 Benchmark 性 能 ， 达 到 什么 样 的 标准 。 Benchmark 来 生产 数据 和 负载 ， 模 拟 生产 环境 的 


发 数据 库 的 主流 Benchmark。 开 发 者 在 开发 的 过 程 中 ， 利 
这 样 在 开发 的 数据 库 或 者 改进 的 算法 上 用 SQL 负载 (Workload) 进行 测试 ， 就 能 够 更 加 精准 地 了 解 性 能 瓶颈 ， 对 系统 进行 调 优 。 


。 它 包含 有 一 组 Hadoop 工 作 负 载 的 集合 ， 有 人 工 模拟 实验 环境 的 工作 负载 ， 也 有 一 部 分 是 生产 环境 的 Hadoop 应 上 


其 作为 Spark 的 Benchmark， 则 需 


https;//github.com/intel-hadoop/HiBench, 


Hibench 包 含 的 负载 如 表 7-1 所 示 。 


表 7-1 


自己 针对 数据 集 : 


Hibench 所 包含 的 负载 


发 一 些 Workload 算 法 。Hibench 是 : 


Benchmark 生 成 结构 化 的 数据 ， 


于 某 些 领域 。 例 如 ，TPC 针 对 数据 仓库 开发 了 TPC-DS 


程序 。Hibench 是 广泛 


源 的 ， 用 户 可 以 到 Github 库 中 下 载 : 


工作 负载 所 属 领域 类 型 实现 
Sort 基本 Benchmark | IO 密集 型 ，CPU 利用 率 中 等 内 部 实现 
WordCount 基本 Benchmark | CPU 密集 型 内 部 实现 
( 续 ) 
工作 负载 所 属 领域 类 型 实现 
Map 和 Shuffle 阶段 CPU 密集 ，L/O 中 等 ，Reduce X. 
Tera Sort 基本 Benchmark | ,, |, P Kw Ed i 内 部 实现 
阶段 VO 密集 ，CPU 中 等 
TET Map 阶段 CPU $% E, Reduce 阶段 IO 密集 , CPU| ， . 
Nutch Indexing 搜索 引擎 中 等 P 基于 Nutch 
SF 
Page Rank 搜索 引擎 CPU 密集 型 基于 SmartFRog 
Bayesis Classisfication | Hli 3 IO 密集 型 基于 Mahont 
中 心 点 计算 阶段 ，CPU 密集 型 . 
. LRS mE 基于 
K-means 机 大 学 习 KRME VO 密集 型 & T Mahout 
DFSIO HDFS I/O IO 密集 型 自己 实现 


下 面 介绍 在 Hibench 的 基础 上 衍生 出 的 一 款 新 的 Big Data Benchmark。 


2.Berkeley BigDataBench 


Berkeley BigDataBenchI] 是 随 着 Spark、Shark 的 推出 ， 由 AMPLab 开 发 的 一 套 大 数据 基准 测试 工 


分 数据 集 是 Common Crawl 上 采样 的 文档 数据 集 ， 这 点 和 Hibench 不 同 。 其 目 


。 由 于 其 一 部 分 是 基于 Hibench 的 数据 集 和 数据 生成 器 ， 所 以 将 二 者 放 在 一 起 介绍 ， 同 时 它 有 一 部 
前 主要 针对 SQL on Hadoop 产 品 进行 基准 测试 。 现 在 还 很 简陋 ， 不 排除 以 后 还 会 增加 对 Spark 和 其 他 Spark 生 态 系统 组 件 的 支 


持 。 感 兴趣 的 读者 可 以 到 官方 主页 (https://amplab.cs.berkeley.edu/benchmark/) 了 解 更 多 内 容 。 


现在 支持 Documents、Ranking 和 UserVisits 3 个 数据 集 ， 这 3 个 数据 集 的 模式 ， 如 表 7-2 所 示 。 


Documents 


表 7-2 3 个 数据 集 的 模式 


Rankings UserVisits 


网 址 列表 
表 属 性 x 


IER E HTML 文档 


每 个 页 面 的 访问 日 志 


和 网 址 相应 的 PageRank 评分 


非 结构 化 文档 


pageURL VARCHAR(300) 
pageRank INT 
avgDuration INT 


为 了 便于 广大 


户 理解 工作 负载 ，BigDataBench 选 


了 SQL 作为 测试 的 工作 负载 ， 而 没有 选择 机 器 学 习 、 流 计算 和 图 


下 面 简要 介绍 Berkely BigData Benchmark 工 作 负载 。 


(1) Scan Query 


计算 等 工作 负载 。 


sourcelP VARCHAR(116) 
destURL VARCHAR(100) 
visitDate DATE 

adRevenue FLOAT 
userAgent VARCHAR(256) 
countryCode CHAR(3) 
languageCode CHAR(6) 
searchWord VARCHAR(32) 
duration INT 


SELECT pageURL. pageRank FROM rankings WHERE pageRank > X 


这 个 查询 的 目的 是 对 关系 表 进 行 选择 和 投影 操作 。 


(2) Aggregation Query 


SELECT SUBSTR (sourceIP， 1, X), 


SUM CadRevenue) FROM uservisits GROUP BY SUBSTR (sourceIP, 1, 


xX) 


这 个 查询 的 目的 是 先 对 关系 表 分 组 ， 然 后 使 


(3) Join Query 


字符 串 解析 的 函数 对 每 个 元 组 进行 解析 ， 最 后 进行 一 个 高 基数 的 聚集 函数 操作 。 


SELECT sourceIP， totalRevenue， 
FROM 
(SELECT sourceIP, 
AVG (pageRank) as avgPageRank, 
SUM CadRevenue) as totalRevenue 
FROM Rankings AS R, 


avgPageRank 


UserVisits AS UV 


WHERE R.pageURL = UV.destURL 
AND UV.visitDate BETWEEN Date (^1980-01-01') AND Date CX') 
GROUP BY UV.sourcelP) 
ORDER BY totalRevenue DESC LIMIT 1 


这 个 查询 使 用 大 小 表 连 接 ， 然 后 对 结果 进行 排序 。 因 为 很 多 SQL on Hadoop 产 品 都 是 基于 Map Reduce 计 算 模型 ， 所 以 这 里 涉及 一 个 经 典 的 优化 方式 是 Map Side Join， 可 以 避免 Shuffle 阶 段 的 网 络 开 


(4) External Script Query 


CREATE TABLE url counts partial AS 
SELECT TRANSFORM (line) 
USING "python /root/url count.py" as (sourcePage, destPage, cnt) 
FROM documents; 
CREATE TABLE url counts total AS 
SELECT SUM (cnt) AS totalCount, destPage 
FROM url counts partial 
GROUP BY destPage; 


在 这 个 查询 中 ， 调 用 一 个 会 抽取 和 聚集 URL 信 息 的 Python 外 部 函数 ， 然 后 分 组 聚集 整个 URL 的 数量 。 


[] 感 兴趣 的 读者 可 参见 : http://baidutech.blog.51cto.com/4114344/743496, HCE Benchmatk.51CTO 博 客 ，2011-02-11。 还 可 参见 论文 : Shengsheng Huang, Jie Huang, Yan Liu and Jinquan Dai, HiBench: A 


Representative and Comprehensive Hadoop Benchmark Suite。 


[2] 参见 : https:/ /amplab.cs.berkeley.edu/benchmark/, 4f Á amplab*] Benchmark 0448 X W£. 


7.1.2 Hadoop GridMix 


作为 Hadoop 自 带 的 Benchmark，Gridmix 同 样 不 支持 Spark， 用 户 要 使 用 Spark， 仍 需 自己 实现 Workload 算 法 。 作 为 Hadoop 自 带 的 测试 工具 ， 使 用 方便 、 负 载 经 典 ， 所 以 应 用 广泛 。 


Gridmix 的 使 用 用 例 不 能 代表 所 有 的 Hadoop 使 用 场景 。Gridmix 的 用 例 中 ， 没 有 包括 较为 复杂 的 计算 ， 也 没有 明显 的 CPU 密集 型 的 用 例 。 而 现实 应 用 中 ， 存 在 很 多 MO 密集 型 的 应 用 ， 同 时 CPU 密集 型 
的 应 用 也 大 量 存在 ， 如 机 器 学 习 算 法 、 构 建 倒 排 素 引 等 。 因 此 ，Gridmix 的 WorkLoad 负 载 并 不 能 完全 展现 大 数据 工作 负载 的 全 貌 。[ 表 7-3 为 Gridmix 负 载 的 介绍 。 


表 7-3 ”Gridmix 所 包含 的 负载 


工作 负载 说 明 


javasort 数据 排序 ， 使 用 的 是 Java 的 原生 接口 

pipesort 数据 排序 ， 使 用 pipe 接口 对 数据 进行 排序 

streamsort 数据 排序 ， 使 用 streaming 接口 对 数据 

webdatascan 根据 设 定 的 一 定 采 样 率 对 原始 数据 进行 一 轮 采 样 ， 使 用 GenericMRLoader 采样 器 

— 设 定 采 样 率 为 100%， 对 原始 数据 进行 -— 迭代 的 采样 。 同 样 ， 使 用 的 采样 希 是 
GenericMRLoader 

monsterQuery 设 定 一 定 的 采样 率 对 数据 采样 HEIT ERR, 使 用 的 采样 锅 是 GenericMRLoader 

maxent ibE—:iEXHERSIECUNAEXEI. EHI FERE GenericMRLoader 


[1] 参见 : http://baidutech.blog.51cto.com/4114344/743496, HCE Benchmark.51CTO HE, 2011-02-11. 


7.1.3 Bigbench, BigDataBenchmark^STPC-DS 


1.Bigbench 


BigBench[ 是 由 Teradata、 多 伦 多 大 学 、Infosizing、Oracle 开 发 的 一 款 大 数据 Benchmark。 其 设计 思想 和 复 用 扩展 的 方式 很 具有 研究 价值 ， 如 果 读 者 感 兴趣 ， 可 以 参阅 论文 : Bigbench: Towards 
an industry standard benchmark for big data analytics。 


Bigbench 可 以 作为 Benchmark 研 究 者 的 一 个 范例 。Bigbench 基 于 零售 业 的 产品 销售 场景 ， 用 于 评测 的 系统 是 大 规模 并 行 关 系数 据 库 和 MapReduce 类 型 的 执行 引擎 。 


BigBench 的 数据 模型 具有 以 下 3 种 类 型 。 
“ 结构 化 的 数据 : 利用 TPC-DS 生 成 ， 筛 选 了 TPC-DS 的 星 型 模型 数据 ， 并 从 中 挑选 部 分 典型 关系 表 。 


* 半 结 构 化 的 数据 ; 利用 网 页 浏览 日 志 并 通过 PDGF 工 具 生成 ， 这 些 日 志 由 零售 业 的 客户 的 浏览 页 面 产生 。 这 些 日 志 格式 很 像 Apache 服 务 器 产生 的 日 志 格式 ， 并 和 TPC-DS 的 数据 模式 融合 ， 其 数据 规模 
也 可 以 随 着 配置 规模 因子 弹性 调整 


“ 非 结 构 化 的 数据 : 数据 基于 真实 数据 作为 输入 ， 进 行 采样 ， 并 利用 字典 通过 一 种 使 用 马尔 科 夫 链 的 算法 生成 的 文本 数据 。 同 样 ， 非 结构 化 数据 与 结构 化 和 半 结 构 化 数据 融合 。 数 据 规模 也 可 以 根据 配 
置 的 因子 弹性 动态 增长 。 


整个 数据 生成 器 的 数据 模型 如 图 7-1 所 示 。 


BigBench 数据 模型 


Marketprice Item 


Reviews 


Web Page Customer 


| eB 
TPC-DS 


[ |BigBench 


图 7-1 BigBench 数 据 模型 


BigBench 的 工作 负载 主要 是 针对 零售 业 的 大 数据 分 析 ， 同 时 覆盖 了 机 器 学 习 等 算法 。 现 在 的 工作 负载 还 不 是 很 多 ， 但 已 经 有 30 个 Query。 这 个 Benchmark 工 具 还 在 扩展 。 


可 以 从 以 下 几 个 维度 来 理解 这 个 Benchmark 工 具 现 在 和 未 来 将 要 扩展 的 工作 负载 类 型 。 


1) 从 业务 维度 : 针对 市 场 、 销 售 、 运 营 、 供 应 链 、 报 表 5 方 面 的 负载 。 


2) 从 数据 源 的 维度 : 针对 结构 化 数据 、 半 结构 化 数据 、 非 结构 化 数据 。 


3) 数据 处 理 的 方式 和 类 型 的 维度 : 声明 型 语言 、 结 构 化 语言 或 者 二 者 的 混合 。 


4) 从 分 析 技 术 的 维度 : 统计 分 析 、 数 据 挖 所 分 析 和 采样 报告 3 个 维度 。 


2.BigDataBenchmark 


BigDataBenchmark 四 是 由 中 科 院 计算 所 开发 的 一 款 开 源 的 大 数据 Benchmark。BigDataBenchmark 集 成 了 19 个 大 数据 Benchmark， 并 从 应 用 情景 维度 、 运 营 和 算法 维度 、 数 据 类 型 维度 、 数 据 源 维 
度 以 及 软件 栈 和 应 用 类 型 维度 综合 考虑 ， 开 发 出 这 款 Benchmark 用 来 公正 地 对 比 和 评判 大 数据 系统 和 架构 。BigDataBenchmark 包 含 多 样 的 数据 输入 类 型 。 感 兴趣 的 读者 可 以 参见 论文 : BigDataBench : 
a Big Data Benchmark Suite from Internet Services， 访 问 官方 主页 : http:;//prof.ict.ac.cn/BigDataBench/publications/, 


BigDataBenchmark 的 设计 基于 典型 的 大 数据 负载 。 由 于 在 生产 环境 中 ， 大 数据 应 用 的 主导 领域 是 搜索 引擎 、 社 交 网 络 、 电 商 。 这 三 大 领域 占据 了 整个 互联 网 80% 的 页 面 。BigDataBenchmark 围 绕 这 
三 大 方向 选取 和 开发 相应 领域 的 典型 负载 。 


数据 生成 器 也 是 基于 这 3 个 领域 开发 和 设计 的 。 针 对 搜索 引擎 领域 产生 文本 数据 ， 针 对 社交 网 络 产生 图 数据 ， 针 对 电 商 产生 结构 化 关系 表 数 据 。 


同时 针对 三 大 领域 生成 不 同 计算 延迟 的 负载 。 在 线 (online) 需要 短 的 延迟 ; 离线 (offline) 需要 进行 复杂 数据 计算 分 析 ; 实时 (Real-Time) 需要 交互 式 分 析 的 负载 。 


3.TPC-DS 


SQL on Hadoop 产 品 的 本 质 就 是 数据 仓库 系统 ， 其 作用 是 在 大 规模 分 布 式 的 环境 下 分 析 和 查询 离线 数据 。TPC-DS GÈ: 参见 : TPC BenchmarkTM DS (TPC-DS):The New Decision Support 
Benchmark Standard, ) 广泛 用 于 SQL on Hadoop 的 产品 评测 。 但 是 ， 目 前 TPC-DS 基 准 已 经 很 难 模拟 越 来 越 复 杂 的 决策 支持 系统 的 业务 需求 。 


TPC-H 的 数据 模型 满足 数据 库 模式 设计 的 第 三 范式 ， 数 据 模型 不 是 现在 决策 支持 系统 主流 的 星 型 模型 或 者 雪花 型 模型 ， 业 务 类 型 也 不 能 很 好 地 体现 物化 视图 和 索引 等 OLAP 型 查询 引擎 的 优势 ， 而 且 其 
数据 表 不 能 表达 数据 倾斜 问题 ， 限 制 了 索引 的 过 度 使 用 。 为 了 应 对 这 个 挑战 ，TPC 组 织 推出 了 TPC-DS， 现 在 也 正在 制作 和 推出 大 数据 领域 的 genchmark， 但 还 未 发 布 。 所 以 现在 很 多 厂商 和 科研 院 所 采用 
TPC-DS 和 暂时 作为 SQL on Hadoop 的 大 数据 测试 的 Benchmark。 


传统 数据 仓库 使 用 的 主流 Benchmark 就 是 TPC-DS。 我 们 可 以 使 用 TPC-DS 最 高 生成 100TB 的 数据 ， 能 够 满足 大 数据 量 的 要 求 。 数 据 模式 采用 雪花 型 模式 : 24 个 平均 含有 18 列 的 数据 库 表 ， 同 时 提供 了 
99 个 典型 Query 供 用 户 使 用 。 这 些 Query 类 型 丰富 ， 如 Ad-hoc Query, Reporting Query 等 ， 满 足 用 户 多 方面 的 要 求 。 


笔者 在 2013 年 参与 学 校 DB-IIR 实 验 室 的 SQL on Hadoop 结 构 化 大 数据 测试 ， 采 用 TPC-DS 作 为 Benchmark 测 试 大 数据 分 析 系 统 ， 这 个 测试 结果 在 中 国 大 数据 大 会 2013 上 发 布 ， 并 在 VL DB 2014 的 


workshop 上 进行 了 公布 。 


当时 采用 的 查询 负载 有 以 下 几 种 。 


(1) 单 表 查 询 


--qh50-- 
select ss store sk as store sk, ss sold date sk as date sk 
ss ext sales price as sales price, ss net profit as profit 
from store sales 

where ss ext sales price»20 

order by profit ` 

limit 100; 

--qA9-- 

select count (*) from store sales 

where ss quantity between 1 and 20 

limit 100; 


(2) Ad hoc£ri: --qB65g-- (2 表 连 接 ) 


select ss store sk, 
ss item sk, y 
sum (ss_sales_price) 
from store sales 
join date dim on (store sales.ss sold date sk -date dim.d date sk) 
where d month seq between 1176 and 1176411. 7 7 K 
group by ss_store_sk, ss_item sk 

limit 100; 


as revenue 


(3) 星 型 查询 : --qD27go-- (5 表 连 接 ) 


select i item id, 
avg (ss coupon amt) 
from store sales ss 
join customer demographics cd on (ss.ss cdemo sk = cd.cd demo sk) 
join date dim dd on (ss.ss sold date sk = dd.d date sk) 7 ui 
join store s on (ss.ss store sk = s.s store sk) 

join item i on (ss.ss item sk = i.i item sk) 

where m T B T 

cd gender = 'M' and 

cd marital status = 'S' and 

cd education status = 'College' and 

d year = 2002 and s state-'TN' 

group by i item id, s state 

order by i item id , s state 

limit 100 7 H 


S state, 
agg3， 


avg (ss quantity) 
avg (ss sales price) 


aggl, 
agg4 


avg (ss list price) 


agg2, 


(4) 复杂 查询 : --qD6gho-- (5 表 连 接 ) 


select a.ca state state, count (*) cnt 

from customer address a 

join customer c on (a.customer address.ca address sk - 
c.c current addr sk) E T ni 

join store sales s on (c.c customer sk = s.ss customer sk) 
join date dim d on (s.ss sold date sk = d.d date sk) ^ 
join item i on (s.ss item sk = i.i item sk) 

group by a.ca state ` T T 7 

having count (*) >= 10 

order by cnt 

limit 100; 


[1] 参见 论文 : BigBench:Towards an Industry Standard Benchmark for Big Data Analytics o 


[2] 参见 : BigDataBench,A Big Data Benchmark Suite,ICT,Chinese Academy of Sciences o 


7.4.4 其 他 Benchmark 


在 大 数据 领域 还 有 一 些 针 对 特定 负载 的 大 数据 Benchmark， 读 者 感 兴趣 可 以 深入 研究 。 下 面 介绍 几 个 典型 的 genchmark。 
1) Malstone: 针对 数据 密集 型 计算 和 分 析 的 工作 负载 的 genchmark 工 具 。 它 基于 大 规模 并 行 计 算 ， 也 具有 云 计算 的 属性 。 


3) YCSB: 


度量 和 对 比 云 数据 库 的 框架 。 基 于 大 规模 并 行 计算 ， 


四 


5) LinkBench: 针对 | 
开源 并 发 布 到 了 Github。 


[ 


2) Cloud Harmony: 使 用 黑 盒 方 式 度量 云 服务 提供 商 的 性 能 。 它 基于 大 规模 并 行 计算 ， 并 | 


数据 库 的 Bechmark， 在 Facebook 数 据 库 工程 团队 ， 通 过 分 析 Facebook 的 数 扩 


向 大 数据 和 云 计算 。 


6) DFSIO: 是 一 个 分 布 式 文件 系统 的 Benchmark， 针 对 Hadoop 测 试 HDFS 的 读 写 性 能 。 


7) Hive performance Benchmark (Pavlo) : 这 是 由 Palvo 最 早 提出 的 测试 工 


4) SWIM: 一 个 针对 MapReduce 的 统计 工作 负载 。 基 于 MapReduce 面 向 大 数据 的 复杂 数据 集 的 分 析 测试 。 


居 库 工作 负载 (workload) 并 : 


目 面向 硬件 架构 ， 评 测 复杂 数据 的 大 数据 运算 。 


。LinkBench 已 经 


发 了 这 款 称 为 LinkBench 的 数据 库 性 能 测试 工 . 


。 这 个 Hive 性 能 测试 工 


MapReduce 的 论文 ) ， 其 他 4 个 典型 的 查询 设计 为 代表 传统 的 结构 化 分 析 工 作 负 载 ， 包 括 选择 、 聚 集 、 连 接 、 


进一步 开发 和 实现 的 。 


7.2 Benchmark 的 组 成 


于 比较 Hadoop 和 并 行 分 析 型 数据 库 。 它 拥有 5 个 工作 负载 ， 第 一 个 是 Grep MRF 


户 


定义 函数 的 工作 负载 。Berkeley Big Data Bench 就 是 借鉴 Pavlo 的 Benchmark 思 想 而 


Benchmark 的 核心 由 3 部 分 组 成 : 数据 集 、 工 作 负 载 、 度 量 指标 。 理 解 了 这 3 个 部 分 ， 就 可 以 宏观 了 解 Benchmark。 下 面 从 以 下 几 点 介绍 Benchmark。 


7.2.1 数据 集 


数据 类 型 分 为 结构 化 数据 、 半 结构 化 数据 和 非 结构 化 数据 。 由 于 大 数据 环境 下 的 数据 类 型 复杂 ， 负 载 多 样 ， 所 以 大 数据 Benchmark 需 要 生成 3 种 类 型 的 数据 和 对 应 负载 。 


EN 


结构 化 数据 : 传统 的 关系 数据 模型 、 行 数据 ， 存 储 于 数据 库 ， 可 用 二 维 表 结 构 表示 。 


典型 场景 为 互联 网 电 商 交易 数据 、 企 业 ERP 系 统 、 财 务 系统 、 医 疗 HIS 数 据 库 、 政 务 信息 化 系统 、 其 他 核心 数据 库 等 。 结 构 规整 ， 处 理 方案 较为 成 熟 。 使 用 关系 数据 库 进 行 存储 和 处 理 。 


2) 半 结 构 化 数据 : 类 似 XML、HTML 之 类 ， 自 描述 ， 数 据 结构 和 内 容 混 杂 在 一 起 。 


典型 应 用 场景 为 邮件 系统 、Web 搜 索引 擎 存储 、 教 学 资源 库 、 档 案 系 统 ， 等 等 。 可 以 考虑 使 用 Hbase 等 典型 的 Key-Value 存 储 系统 存储 。 在 互联 网 公司 中 存在 大 量 的 半 结 构 化 数据 。 


3) 非 结构 化 数据 : 各 种 文档 、 图 片 、 视 频 /音频 等 。 


典型 应 用 场景 为 视频 网 站 、 图 片 相册 、 医 疗 影像 系统 、 教 育 视频 点 播 、 交 通 视频 监控 、 文 件 服务 器 (PDM/FTP) 等 具体 应 用 。 可 以 考虑 使 用 HDFS 等 文件 系统 存储 。 在 互联 网 公司 同样 存在 大 规模 的 非 
结构 化 数据 。 


7.2.2 工作 负载 


1. 工 作 负 载 的 维度 

对 工作 负载 的 理解 和 设计 可 以 分 为 以 下 几 个 维度 。 
(1) 密集 型 计算 类 型 

Q@CPU 密 集 型 计算 。 

@IO 密 集 型 计算 。 

@ 网 络 密集 型 计算 。 
(2) 计算 范式 

SAL, 

@ 批 处 理 。 


@ 流 计算 。 


@ 图 计算 。 


@ 机 器 学 习 。 
(3) 计算 延迟 

@ 在 线 计算 。 

@ 离 线 计算 。 

@ 实 时 计算 。 


(4) 应 用 领域 


@ 搜 索引 擎 。 


@ 社 交 网 络 。 
@ 电 子 商 务 。 
@ 地 理 位 置 服务 。 


@ 媒 体 ， 游 戏 。 


由 于 互联 网 领域 数据 庞大 ， 用 户 量 大 ， 成 为 大 数据 问题 产生 的 天 然 土壤 。 大 数据 Benchmark 的 很 多 工作 负载 都 是 根据 互联 网 领域 的 典型 应 用 场景 产生 的 。 从 图 7-5 中 可 以 看 到 ，BAT 三 巨头 分 别 规划 了 
自己 的 互联 网 布局 ， 涉 及 电子 商务 、 媒 体 游戏 、 社 交 媒 体 、 搜 索 门 户 以 及 基于 地 理 位 置 服务 等 多 个 领域 。 每 个 巨头 旗下 都 有 数 家 小 公司 与 其 有 着 紧密 的 联系 ， 正 是 互联 网 应 用 中 产生 了 大 量 的 典型 大 数据 工 
作 负 载 。 


由 于 Spark 兴 起 的 时 间 较 Hadoop 晚 很 多 ， 其 相应 的 Benchmark 也 不 如 Hadoop 可 用 的 多 。 但 是 我 们 也 看 到 ，Spark 兼 容 和 利用 Hadoop 存 储 的 数据 ， 这 就 使 用 户 可 以 利用 以 往 Hadoop 的 Benchmark 的 
数据 生成 器 生成 数据 ， 使 用 Hadoop 存 储 数据 ， 然 后 根据 特定 的 负载 重 写 Spark 的 工作 负载 。 因 为 Spark 的 编程 表现 力 要 远 远 超过 Hadoop， 所 以 Hadoop 的 工作 负载 完全 能 用 Spark 重 写 ， 而 且 Benchmark 
的 负载 目的 只 是 突出 在 特定 的 计算 密集 型 计算 下 暴露 系统 性 能 瓶颈 ， 一 般 逻 辑 简单 ， 所 以 改写 工作 量 并 不 大 。 


PPS 影音 
Qw 


公司 类 型 
D 电子 商务 者 搜索 、 门 户 等 
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图 7-2 ”互联 网 公司 业务 类 型 
2. 典 型 的 工作 负载 
下 面 从 计算 范式 角度 介绍 典型 的 大 数据 工作 负载 。 
(1) 基本 负载 
1) Word Count。 
WordCount 是 CPU 密集 型 的 操作 负载 ，WordCount 已 经 在 前 面 有 所 介绍 ， 在 此 不 再 详 述 。 
2) Sort。 
排序 算法 是 |/O 密 集 型 的 负载 。 


排序 算法 的 实现 如 下 。 


object Sort ( 
def main (args: Array[String]) : Unit = ( 
val host = "Spark: //127.0.0.1: 7077"  /x* 指 定 Spark 的 主机 地 址 */ 
var splits = 1 /* 读 者 可 以 自行 设 定 这 里 的 分 区 个 数 */ 
val spark = new SparkContext (host, "Sort", 
SPARK HOME, List (JARS) ) 
val filename = "SortText" 
val save file - "SortSavedFile" 
val lines = spark.textFile (filename, splits) 
val mapData = lines.map (line => ( 
(line, 1) 
p /* 这 里 进行 映射 是 为 了 使 用 sortByKey 的 算 子 ， 因 为 sortByKey 只 能 处 理 key-value pair 类 型 的 数据 */ 
val result = mapData.sortByKey () .map{line => line. 1} 
result.saveAsTextFile (save file) 5l 


3) Tera Sort 


在 运行 的 过 程 中 ，map 映 射 和 Shuffle 阶 段 是 CPU 密集 型 的 (CPU intensive) ，IMO 程 度 中 等 ， 在 reduce 阶 段 是 MO 密集 型 的 (MO intensive) ，CPU 计 算 中 等 。 


算法 实现 思想 : 当 把 传统 的 串 行 排序 算法 设计 成 并 行 的 排序 算法 时 ， 通 常会 想到 分 而 治之 的 策略 。 排 序 并 行 化 的 一 般 做 法 是 : 把 要 排序 的 数据 划 成 M 个 数据 块 (可 以 用 Hash 的 方法 做 到 ) ， 然 后 每 个 
map task 对 一 个 数据 块 进行 局 部 排序 ， 之 后 ， 一 个 reduce task 对 所 有 数据 进行 全 排序 。 这 种 设计 思路 可 以 保证 在 map 阶 段 并 行 度 很 高 ， 但 在 reduce 阶 段 完全 没有 并 行 。 为 了 提高 reduce 阶 段 的 并 行 
度 ，TeraSort 作 业 对 以 上 算法 进行 改进 : 在 map 阶 段 ， 每 个 map task 都 会 将 数据 划分 成 R 个 数据 块 〈(R 为 reduce task 个 数 ) ， 其 中 第 i (i> 0) 个 数据 块 的 所 有 数据 都 会 比 第 i+ 1 个 数据 块 中 的 数据 大 ; 在 
reduce 阶 段 ， 第 i 个 reduce task 处 理 (进行 排序 ) 所 有 map task 的 第 块 ， 这 样 第 个 reduce task 产 生 的 结果 均 会 比 第 i+ 1 个 大 ， 最 后 将 1~R 个 reduce task 的 排序 结果 顺序 输出 ， 即 为 最 终 的 排序 结果 。 


(2) 机 器 学 习 


下 面 以 K-Means 聚 类 算法 为 例 介绍 机 器 学 习 计 算 范 式 


在 计算 中 心 点 时 ，K-Means 是 CPU 密集 型 的 计算 。 在 聚 类 时 ，K-Means 进 行 /O 密 集 型 运算 。 


K-Means 算 法 是 最 为 经 典 的 基于 划分 的 聚 类 方法 ， 是 十 大 经 典 数据 挖掘 算法 之 一 。K-Means 算 法 的 基本 思想 是 : 以 空间 中 K 个 点 为 中 心 进行 聚 类 ， 对 最 靠近 它们 的 对 象 归 类 。 通 过 迁 代 的 方法 ， 逐 次 更 
新 各 聚 类 中 心 点 的 值 ， 直 至 得 到 最 好 的 聚 类 结果 。 


假设 要 把 样本 集 分 为 c 个 类 别 ， 算 法 描述 如 下 。 


1) 适当 选择 k 个 类 的 初始 中 心 。 


2) 在 第 n 次 迭代 中 ， 对 于 任意 一 个 样本 ， 求 其 到 k 各 中 心 的 距离 ， 将 该 样本 归 到 距离 最 短 的 中 心 所 在 的 类 。 


3) 利用 均值 等 方法 更 新 该 类 的 中 心 值 。 


4) 对 于 所 有 的 k 个 聚 类 中 心 ， 如 果 利 用 2) . 3) 的 迭代 法 更 新 后 ， 值 保持 不 变 。 或 者 达到 指定 的 迭代 次 数 ， 则 迭代 结束 ， 否 则 继续 迄 代 。 


该 算法 的 最 大 优势 在 于 简洁 和 快速 。 算 法 的 关键 在 于 初始 中 心 的 选择 和 距离 公式 。 


(3) 图 计算 


下 面 以 PageRank 图 计算 算法 为 例 介绍 图 计算 的 计算 范式 。PageRank 广 泛 用 于 搜索 引擎 ， 对 网 页 图 谱 进 行 分 析 。 


1) 算法 介绍 。 


PageRank 用 于 衡量 特定 网 页 相对 于 搜索 引擎 索引 中 


他 网 页 而 言 的 重要 程度 ， 是 Google 的 专 有 算法 。20 世 纪 90 年 代 后 期 由 Larry Page 和 Sergey Brin 开 发 。PageRank 将 链接 价值 概念 作为 排名 因素 。 


2) 算法 思想 。 


一 个 页 面 的 pageRank 由 所 有 链 向 它 的 页 面 ( 链 入 页 面 ) 的 重要 性 经 过 递归 算法 得 到 。 一 个 页 面 的 权重 由 所 有 链 向 它 的 页 面 的 重要 性 决定 ， 到 一 个 页 面 的 超 链接 相当 于 为 该 页 投 一 票 。 一 个 有 较 多 链 入 
的 页 面 会 有 较 高 的 权重 ， 反 之 ， 一 个 页 面 链 入 页 面 越 少 ， 权 重 越 低 。 简 而 言 之 ， 从 许多 的 权重 高 网 页 链接 过 来 的 网 页 ， 必 定 还 是 权重 高 的 网 页 。 


PageRank 计 算 基于 以 下 两 个 基本 假设 。 


“ 质量 假设 : 指向 页 面 A 的 入 链 质 量 不 同 ， 质 量 高 的 页 面 会 通过 链接 向 其 他 页 面 传递 更 多 的 权重 。 因 此 ， 质 量 越 高 的 页 面 指向 页 面 A， 则 页 面 A 也 越 重要 。 


“ 数量 假设 : 若 一 个 页 面 节 点 接收 到 的 其 他 网 页 指向 的 入 链 数量 越 多 ， 则 该 页 面 越 重 要 。 


3) 算法 原理 。 


初始 阶段 : 网 页 通过 链接 关系 构建 有 向 图 ， 每 个 页 面 设置 相同 的 PageRank 值 ， 通 过 若干 轮 的 迭代 计算 ， 得 到 每 个 页 面 最 终 获得 的 PageRank 值 。 在 每 轮 和 迭代 中 ， 网 页 当前 的 PageRank 值 不 断 更 新 。 


AR: 在 更 新 页 面 PageRank 得 分 的 每 轮 计 算 中 ， 各 页 面 将 其 当前 的 PageRank 值 平均 分 配 到 本 页 面包 含 的 出 链 上 ， 每 个 链接 即 获得 了 相应 的 权 值 。 而 每 个 页 面 将 所 有 指向 本 页 面 的 入 链 所 传 入 的 权 值 进 


行 求 和 ， 即 可 得 到 新 的 PageRank 得 分 。 且 每 个 页 面 都 获得 了 更 新 后 的 PageRank 值 时 ,一 轮 PageRank 计 算 完成 。 
ms f m 


PR(p, o 
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(4) 计算 公式 


PR (pi) : pi 页 面 的 PageRank 值 。 


N: 所 有 页 面 的 数量 。 


pi: 不 同 的 网 页 p1、p2、p3。 
M (i) : pi 链 入 网 页 的 集合 。 


LG): pj 链 出 网 页 的 数量 。 


d: 阻尼 系数 ， 任 意 时 刻 ， 用 户 到 达 某 页 面 后 并 继续 向 后 浏览 的 概率 。 


(1-d=0.15) : 表示 用 户 停止 点 击 ， 随 机 跳 到 新 URL 的 概率 。 


取 值 范围 : 0< d<1，Google 设 为 0.85。 


通过 链接 关系 ， 就 构造 出 了 “转移 矩阵 ”。 


(5) SQL 


结构 化 查询 语言 (structured query language, SQL) 是 一 种 数据 库 查询 和 程序 设计 语言 ， 用 于 存 取 数 据 以 及 查询 、 更 新 和 管理 关系 数据 库 系 统 。SQL 可 以 大 致 分 为 以 下 几 个 类 型 : 席 查 询 (Ad-hoc 
query) 、 报 表 查 询 (Reporting query) …. ARAH (Iterative Query) 、 星 型 查询 (Star query) 等 ， 感 兴趣 的 用 户 可 以 查看 TPC-DS 的 介绍 进行 了 解 。 


7.2.3 ”度量 指标 


性 能 调 优 的 两 大 利器 就 是 Benchmark 和 Profile 工 具 ， 读 者 可 以 结合 spark 性 能 调 优 章节 ， 通 过 Benchmark 和 Profile 工 具 ， 及 相应 的 调 优 方法 对 Spark 性 能 调 优 。Benchmark 用 压力 测试 挖掘 整个 系统 的 
性 能 状况 ， 而 Profile 工 具 最 大 限度 地 呈现 系统 的 运行 时 状态 和 性 能 指标 ， 方 便 用 户 诊断 性 能 问题 和 进行 调 优 。 


户 在 实战 中 可 以 采用 一 些 原生 的 Profile 工 具 ， 通 过 以 下 几 个 方面 对 系统 性 能 指标 进行 度量 。 


1. 工 具 使 有 


1) 在 架构 层面 : perf、nmon 等 工具 和 命令 。 


2) 在 JVM 层 面 : btrace、Jconsole、JVisualVM、JMap，JStack 等 工具 和 命令 。 


3) 在 Spark 层 面 : web ui、console log， 也 可 以 通过 修改 Spark 源 码 打印 日 志 进 行 性 能 监控 。 


2. 度 量 指标 


(1) 从 架构 角度 进行 度量 
“ 浮 点 型 操作 密度 。 


. 整数 型 操作 密度 。 


- cache 命中 率 (L1 miss、L2 miss. L3 miss) 。 
- TLB 命 中 。 

(2) 从 Spark 系 统 执行 时 间 和 吞吐 的 角度 度量 
. Job 作业 执行 时 间 。 

.Job 吞吐 量 。 

:Stage 执行 时 间 。 

. Stage 知 吐 量 。 

"Task 执行 时 间 。 


< Task 知 吐 量 。 


(3) 从 Spark 系 统 资源 利用 率 的 角度 度量 


:CPU 在 指定 时 间 段 的 利用 率 。 


“ 内 存在 指定 时 间 段 的 利用 率 。 


: 磁盘 在 指定 时 间 段 的 利用 率 。 


:网络 带 宽 在 指定 时 间 段 的 利用 率 。 


(4) 从 扩展 性 的 角度 度量 


.数据 量 扩展 。 
- 集群 节点 数 扩展 (scale out) 。 


单机 性 能 扩展 (scale up) o 


7.3 Benchmark 的 使 用 


下 面 介绍 3 个 典型 的 Benchmark 的 使 用 ， 即 Hibench、BigDataBench 和 TPC-DS。 


7.3.1 使 用 Hibench 


下 面 介绍 Hibench[ 1 的 使 用 方法 。 


1. 前 期 准备 
(1) 设置 HiBench-2.2 


下 载 或 者 签 出 HiBench-2.2 benchmark suite， 官 方 网 址 为 https://github.com/intel-hadoop/HiBench/zipball/HiBench-2.2。 


(2) 设置 Hadoop 


在 运行 其 他 工作 负载 之 前 ， 请 确认 已 经 正确 安装 了 Hadoop， 所 有 的 工作 负载 已 经 在 Cloudera Distribution of Hadoop 3 update 4 (cdh3u4) and Hadoop version 1.0.3 版 本 的 Hadoop 上 测试 通 


(3) 设置 HiveD 


如 果 需 要 测试 hivebench， 则 确认 实验 环境 已 经 安装 了 Hive， 或 者 使 用 benchmark 中 已 经 打包 的 Hive 0.9。 


(4) 针对 所 有 的 工作 负载 配置 参数 


需要 在 使 用 前 在 bin/hibench-config.sh 中 配置 一 些 全 局 变量 。 


: HADOOP_HOME: Hadoop 的 安装 路 径 。 

: HADOOP_CONF_DIR: Hadoop 的 配置 文件 目录 ， 默 认为 SHADOOP_HOME/conf 目 录 下 。 
- COMPRESS GLOBAL: 设置 是 否 压缩 输入 输出 数据 ，0 表 示 不 压缩 ，1 表 示 压 缩 。 

: COMPRESS_CODEC_ GLOBAL: 设置 默认 的 输入 输出 压缩 方式 。 


(5) 针对 每 个 工作 负载 参数 配置 


如 果 工作 负载 的 目录 下 游 conf/configure.sh 文 件 ， 则 可 以 通过 修改 conf/configure.sh 来 配置 每 个 工作 负载 ， 所 有 数据 规模 以 及 和 这 个 工作 负载 相关 的 参数 都 在 这 个 目录 配置 。 


同步 所 有 节点 的 时 间 ， 这 在 dfsioe 是 必须 做 的 ， 其 他 可 做 可 不 做 。 


2. 运 行 


(1) 一 起 运行 多 个 工作 负载 


在 配置 文件 conf/benchmarks.lst 中 定义 了 当 运 行 /run-all.sh 时 需要 运行 的 工作 负载 。 文 件 中 的 每 一 行 都 是 一 个 指定 的 工作 负载 .可 以 用 # 符 号 来 注释 掉 不 需要 运行 的 负载 。 


(2) 单独 运行 各 个 工作 负载 


也 可 以 单独 运行 各 个 工作 负载 。 通 常情 况 下 ， 在 每 个 工作 负载 的 目录 下 都 有 3 个 独立 的 shell 文 件 ， 这 3 个 文件 的 功能 如 下 。 


: conf/configure.sh: 这 个 配置 文件 包含 数据 规模 和 测试 的 运行 参数 。 
* bin/prepare*.sh: 生成 测试 数据 或 者 将 输入 数据 复制 到 HDFS 中 。 


“bin/run*.sh: 执行 工作 负载 。 


户 可 以 按照 下 面 的 顺序 执行 工作 负载 。 


1) 配置 Benchmark。 


如 果 需 要 更 高 级 的 测试 需求 ， 则 通过 修改 配置 文件 configure.sh 来 配置 参数 。 


N 


准备 数据 。 


过 运行 Shell 文 件 bin/prepare.sh 生 成 和 准备 数据 (bin/prepare-read.sh 这 个 文件 针对 dfsioe) 。 


tsi 


Ww 


运行 Benchmark。 


bin/run*.sh 


[1] https://github.com/intel-hadoop/HiBench 


[2] 这 个 只 在 运行 Hive 的 Benchmatrk 时 ， 才 需要 安装 。 


7.3.2 使 用 TPC-DS 


下 面 介绍 TPC-DS ( 注 : 参见 : http://www.tpc.org/tpcds/, TPC BenchmarkIMDS (TPC-DS):The New Decision Support Benchmark Standard。) 的 使 用 方式 。 


(1) 下 载 最 新 的 包 


户 可 以 到 TPC 主 页 进行 下 载 : http://www.tpc.org。 


(2) Make 生 成 可 执行 文件 [1 


= 


将 Makefile.suite 文 件 复制 为 Makefile。 


2) 编辑 修改 Makefile， 找 到 含有 “OS=” 的 行 。 


Ww 


阅读 注释 并 增加 指定 的 OS, 如 “OS=LINUX”。 

4) 执行 make。 

(3) Windows 操 作 系统 编译 TPC-DS， 生 成 可 执行 文件 
1) 安装 Microsoft Visual Studio 2005。 


2) 双击 打开 整个 解决 方案 dbgen2.sIn (可 能 会 看 到 报错 “project file grammar.vcproj”， 可 以 忽略 这 个 错误 ) 。 


3) 在 项 目 列表 中 ， 右 击 dbgen2 (是 数据 生成 器 ) ， 然 后 选择 “build” (或 者 从 顶层 菜单 单 击 Build 一 Build Solution) 。 


4) 重复 步骤 3 构建 查询 生成 嚣 qgen2。 


5) 针对 X64 and IA64 on X86 平台 进行 交叉 编译 ， 安 装 Microsoft Visual Studio 2005 "Team Suite”SKU， 然 后 选择 from Build 一 Configuration Manager 命 令 ， 并 重复 执行 步骤 3 和 步骤 4， 进 而 
修改 目标 的 运行 平台 。 


(4) 生成 数据 
1) 运行 “dbgen2-h” 以 获取 帮助 信息 。 注 意 : 许多 高 级 选项 并 不 是 必须 的 。 


2) 在 目录 /tmp 下 生成 个 100GB 数 据 。 


dbgen2 -scale 100 -dir /tmp 


常用 的 数据 规模 参数 可 以 有 100GB、300GB、1TB、3TB、10TB、30TB 和 100TB。 


3) 可 以 通过 配置 参数 “-delimiter '«c»' ”选项 修改 文件 分 隔 。 


4) 当 数 据 规模 巨大 时 ， 可 以 通过 并 行 方式 生成 。 例 如 ， 生 成 100GB 的 数据 ， 通 过 4 路 并 行 在 Linux/Unix 上 运行 。 


dbgen2 -scale 100 -dir /tmp -parallel 4 -child 1 
dbgen2 -scale 100 -dir /tmp -parallel 4 -child 2 
dbgen2 -scale 100 -dir /tmp -parallel 4 -child 3 
dbgen2 -scale 100 -dir /tmp -parallel 4 -child 4 


(5) 加 载 数 据 


在 Shark 中 需要 先 建 表 ， 然 后 加 载 数据 ， 加 载 数据 的 方式 和 Hive 是 相近 的 。 加 载 数据 时 候 ， 需 要 注意 使 用 的 分 隔 符 。 


注意 由 于 TPC-DS 的 数据 类 型 在 shark 中 并 不 完全 适用 ， 所 以 可 以 修改 数据 类 型 为 以 下 格式 。 


drop table customer address: 
create table customer address 
í 
ca address sk bigint , 
ca address id string ， 
ca street number string ， 
ca street name string ， 
ca street type string ， 
ca suite number string ， 
ca city string , 
ca county string ， 
ca state string ， 
ca zip string ， 
ca country string ， 
ca gmt offset double , 
ca location type string 
) 


row format delimited fields terminated by '|' lines terminated by '\n' stored as textfile ; 


在 Shell 中 执行 如 下 命令 加 载 数据 ， 或 者 这 条 命令 在 SQL 中 让 Shark 执 行 。 


LOAD DATA INPATH 'hdfs: //hive01: 9000/3t/customer.dat' INTO TABLE customer address: 


(6) 通过 模板 生成 查询 


query templates 文 件 夹 下 有 99 个 查询 模板 ， 用 户 可 以 到 其 中 查询 模板 并 生成 指定 的 查询 。 


由 于 不 同 厂家 的 SQL 并 不 是 全 部 遵循 ANSI 标 准 。 例 如 “LIMIT” 和 “BEGINMCOMMIT”，qgen2 需 要 指定 方言 “dialect”。 现 在 支持 几 类 模板 : db2.tpl. netezza.tpl, oracle.tpl, sqlserver.tpl, F 
面 是 生成 oracle 方 言 ， 针 对 100GB 数 据 规模 ， 使 用 query99 模 板 查询 的 例子 。 


qgen2 -query99.tpl -directory query templates 
-dialect oracle -scale 100 


(7) 运行 查询 
查询 的 运行 依赖 于 当时 正在 运行 的 大 数据 系统 。 


Shark 执 行 查询 的 命令 和 方式 如 下 。 


1) 在 Shark 的 Shell 中 执行 ， 将 query 的 SQL 语句 复制 到 Shell 执 行 。 


$ ./bin/shark # Start CLI for interactive session 


2) 在 命令 行 后 追加 SQL 语句 执行 查询 。 


$ ./bin/shark -e "SELECT * FROM foo" # Run a specific query and exit 


3) 在 命令 行 后 追加 文件 执行 查询 。 


$ ./bin/shark -i queries.hql # Run queries from a file 


关于 其 他 的 高 级 选项 ， 感 兴趣 的 用 户 可 以 通过 查看 文档 了 解 。 


[1] 针对 AIX、LINUX、HPUX、NCR 和 Solatis 操 作 系统 。 


7.3.3 ”使 用 BigDataBench 


BigDataBench[1] 针 对 不 同 的 负载 ， 用 户 可 以 使 用 下 面 的 方式 生成 数据 和 使 用 工作 负载 。 


在 Spark 的 shell 中 已 经 默认 设置 了 数据 生成 的 命令 和 配置 ， 感 兴趣 的 读者 或 者 有 特定 数据 规模 需求 的 读者 可 以 修改 对 应 的 Shell 调 整 负载 。 
1. 离 线 分 析 (offline analytics) 
Spark 版 本 的 工作 负载 包含 3 个 : sort, grep, wordcount, 


(1) sort 


用 户 在 运行 之 前 需要 将 Spark 复 制 到 各 个 节点 。 
1) 准备 工作 。 


在 官网 下 载 指定 的 包 后 ， 解 压 压缩 包 。 


BigDataBench Sprak V3.0.tar.gz 
tar -xzf BigDataBench Sprak V3.0.tar.gz 


2) 打开 目录 。 


cd BigDataBench Sprak V3.0.tar.gz /MicroBenchmarks/ 


3) 生成 数据 。 


sh genData MicroBenchmarks.sh 
sh sort-transfer.sh 


4) 运行 。 

注意 : 如 果 运 行 的 负载 是 排序 ， 则 需要 提前 运行 sh 文件 sort-transfer 进 行 转换 。 
第 一 步 : sh genData_MicroBenchmarks.sh。 

第 二 步 : sh sort-transfer.sh。 


第 三 步 : 运行 。 


./run-bigdatabench cn.ac.ict.bigdatabench.Sort «master» «data file» «save file» [<slices>] 


参数 介绍 : 

- <master>: Spatk 服 务 器 的 URL， 例 如 : spark://172.16.1.39: 7077。 
- «data file»: 输入 数据 的 HDFS 路 径 ， 例 如 : /test/data.txto 

* <save_file>: 保存 结果 的 HDFS 路 径 。 

“ [<slices>]: 可 选 参数 (worker 数 量 ) o 


(2) 执行 grep 负 载 


./run-bigdatabench cn.ac.ict.bigdatabench.Grep «master» «data file» «keyword» «save file» 
[<slices>] 


参数 介绍 : 
“ <master>: Spatk 服 务 器 的 URL， 例 如 : spark://172.16.1.39: 7077。 
- «data file»: 输入 数据 的 HDFS 路 径 ， 例如: /test/data.txto 


“<keyword>: 过 滤 文 本 用 的 关键 词 。 


' <save_file>: 保存 结果 用 的 HDFS 路 径 。 
“ [<slices>]: 可 选 参数 ，Worker 数 量 。 


(3) 执行 wordcount 负 载 


./run-bigdatabench cn.ac.ict.bigdatabench.WordCount «master» «data file» «save file» 
[«slices?] H 


参数 介绍 : 

* <master>: Spatk 服 务 器 的 URL， 例 如 : spark://172.16.1.39: 7077。 
: «data file»: 输入 数据 的 HDFS 路 径 ， 例如: /test/data.txto 
<save_file>: 保存 结果 的 HDFS 路 径 。 

“ [<slices>]: 可 选 参数 ，worker 数 量 。 

2 分 析 型 的 工作 负载 

(1) PageRank 


PageRank 的 程序 和 数据 源 自 Hibench。 


Spark-version 


1) 前 期 准备 。 


下 载 并 解压 文件 : BigDataBench_Sprak_V3.0.tar.gz。 


tar xzf BigDataBench Sprak V3.0tar.gz 


2) 打开 目录 。 


cd BigDataBench Sprak V3.0.tar.gz /SearchEngine/ Pagerank 


3) 生成 数据 。 


sh genData_PageRank.sh 


二 
W 
hi 


./run-bigdatabenchorg.apache.spark.examples.PageRank 
«master» «file» «number of iterations» «save path» [«slices»] 


参数 介绍 : 

* <master> : Spark 服 务 器 的 URL， 例 如 : spark://172.16.1.39: 7077。 
| «file»: 输入 数据 的 HDFS 路 径 ， 例 如 : /test/data.txto 

< «number. of iterations» : 运行 算法 的 选 代 次 数 。 

“ save path»: 保存 结果 的 路 径 。 

“ [<slices>]: 可 选 参数 ，worker 数 量 。 

(2) Kmeans 

Kmeans 的 工作 负载 来 源 于 Mahout。 

1) 准备 工作 。 


下 载 并 解压 包 : BigDataBench_Sprak_V3.0.tar.gz。 


tar -xzf BigDataBench Sprak V3.0.tar.gz 


2) 打开 根 目录 。 


cd BigDataBench Sprak V3.0.tar.gz /SNS 


3) 生成 数据 。 


sh genData Kmeans.sh 


./run-bigdatabench org.apache.spark.mllib.clustering.KMeans «master» «input file» <k> 
«max iterations» [<runs>] 


参数 介绍 : 


- <master>: Spatk 服 务 器 的 URL， 例 如 : spark://172.16.1.39: 7077。 
: <input_file>: 输入 数据 的 HDFS 路 径 ， 例 如 : /test/data.txto 

“ [<k>]: 数据 中 心 的 数量 。 

“ <max_iterations>: 运行 算法 的 迭代 次 数 。 

“ [<runs>]: 通过 上 述 命令 即 可 进行 KMears 基 准 测试 。 

(3) Connected Components 


Connected Components 程 序 源 自 PEGASUS。 


1) 准备 工作 。 


Q@ 下 载 并 和 解压 包 : BigDataBench_Sprak_V3.0.tar.gz。 


tar xzf BigDataBench Sprak V3.0.tar.gz 


@ 打 开 根 目录 。 


cd BigDataBench Sprak V3.0.tar.gz/ SNS/connect/ 


@ 生 成 数据 


sh genData connectedComponents.sh 


./run-bigdatabench cn.ac.ict.bigdatabench.ConnectedComponent «master» «data file» [<slices>] 


参数 介绍 : 

“<master>: Spark 服 务 器 的 URL， 例 如 : spark://172.16.1.39: 7077。 
dan file>: 输入 数据 的 HDFS 路 径 ， 例 如 : /test/datatxto 

“ [<slices>]: 可 选 参数 ，worker 数 量 。 

通过 上 述 命令 即 可 运行 Connected Components 负 载 。 


(4) Naive Bayes 


Naive Bayes (朴素 贝 叶 斯 ) 算法 也 是 源 自 Mahout。 通 过 下 面 命令 进行 数据 生成 与 测试 。 


1) 下 载 并 解压 包 : BigDataBench_Sprak_V2.2.tar.gz。 


tar -xzf BigDataBench Sprak V2.2.tar.gz. 


2) 打开 根 目录 。 


cd BigDataBench Sprak V2.2.tar.gz / E-commerce 


3) 生成 数据 。 


sh genData naivebayes.sh 


» 


4) 运行 。 


sh run naivebayes.sh 


[1] 参见 : http://prof.ict.ac.cn/BigDataBench/, A Big Data Benchmark Suite, ICT,Chinese Academy of Sciences; 


74 本 章 小 结 


本 章 主要 介绍 了 大 数据 Benchmark， 包 括 Benchmark 的 原理 和 常用 Benchmark 的 使 用 。 


Benchmark 标 准 尚未 形成 统一 ， 但 一 些 Benchmark 已 经 崭露头角 。 用 户 可 以 根 


最 后 本 章 介 绍 了 Hibench、BigDataBench、TPC-DS 这 三 个 广泛 使 


居 系 统 需求 有 针对 性 地 选用 。Benchmark 包 含 三 大 组 件 ， 读 者 通过 了 解 三 大 组 件 可 以 理解 Benchmark 的 原理 和 作用 


的 Benchmark 的 使 用 方法 ， 读 者 可 以 采用 需要 的 Benchmark 进 行 实践 。 


相信 通过 之 前 几 章 的 介绍 ， 读 者 已 经 对 Spark 有 了 一 定 程度 的 了 解 。Spark 发 展 得 如 火 如 茶 发 


展 的 一 个 重要 原 


因 就 是 生态 系统 的 完善 ， 下 面 通过 介绍 BDAS 的 3 


要 组 件 ， 使 读者 全 面 了 解 Spark 生 态 系 


第 8 章 ”BDAS 简 介 


随 着 Spark 中 国峰 会 的 举行 ，Spark 工 业界 应 


的 大 范围 落地 ， 


Spark 生 态 系统 在 国内 发 展 势头 强劲 。 前 段 时 间 Spark 也 正式 升级 为 Apache 顶 级 项 目 ， 证 明 Spark 得 到 了 更 加 广泛 的 认可 。AMPLab 的 


Spark 团 队 创 立 了 大 数据 公司 Databricks， 提 供 Spark 的 产品 化 支持 ， 为 后 续 Spark 的 产品 化 和 落地 提供 了 更 加 强 有 力 的 保障 。 


提 到 Spark 就 不 得 不 说 伯克利 大 学 AMPLab 开 发 的 BDAS (Berkeley Data Analytics Stack) 数据 分 析 的 软件 栈 。 其 中 用 内 存 分 布 式 大 数据 计算 引擎 Spark 蔡 代 原 有 的 MapReduce， 上 层 通过 Spark 
SQL/shark 蔡 代 Hive 等 数据 仓库 ，Spark Streaming 蔡 换 Storm 等 流 式 计 算 框架 ，GraphX 茶 换 Graph Lab 等 大 规模 图 计算 框架 ，MLlib 蔡 换 Mahout 等 机 器 学 习 框架 等 ， 其 整体 框架 基于 内 存 计算 解决 了 原 
来 Hadoop 的 性 能 瓶颈 问题 。 他 们 提出 One Framework to Rule Them All 的 理念 ， 用 户 可 以 利用 Spark 一 站 式 构建 自己 的 数据 分 析 流 水 线 。 


81 SQL on Spark! 


AMPLab 将 大 数据 分 析 负 载 分 为 三 大 类 型 : 批量 数据 处 理 、 交 互 式 查询 、 实 时 流 处 理 ， 而 其 中 很 重要 的 一 环 便 是 交互 式 查询 。 大 数据 分 析 栈 中 需要 满足 用 户 ad-hoc、reporting、iterative 等 类 型 的 查询 


需求 ， 需 要 提供 SQL 接口 来 兼容 原 有 数据 库 用 户 的 使 用 习惯 ， 同 时 需要 SQL 能 够 重组 关系 模式 。 完 成 这 些 重 要 的 SQL 任务 的 便 是 Spark SQL 和 Shark 这 两 个 开源 分 布 式 大 数据 查询 引擎 ， 它 们 可 以 理解 为 轻 量 
级 Hive SQL 在 Spark 上 的 实现 ， 业 界 将 该 类 技术 统称 为 SQL on Hadoop。 


在 刚刚 结束 的 Spark Summit 2014 上 ，Databricks 宣 布 不 再 支持 Shark 的 开发 ， 全 力 以 赴 开 发 Shark 的 下 一 代 技 术 Spark SQL， 同 时 Hive 社 
MapReduce 和 Tez 之 外 的 新 执行 引擎 。 根 据 伯 克利 的 Big Data Benchmark 测 试 对 比 数据 ，Shark 的 In Memory 性 能 可 以 达到 Hive 的 100 倍 ,上 


区 也 启动 了 Hive on Spark 项 目 , 将 Spark 作 为 Hive 除 
使 是 On Disk， 也 能 达到 10 倍 的 性 能 提升 ， 是 Hive 强 有 力 的 


替代 解决 方案 。 而 作为 Shark 进 化 版 本 的 Spark SQL， 在 AMPLab 最 新 的 测试 中 ， 性 能 已 经 超过 Shark。 在 本 文中 ， 统 称 Spark SQL、Shark 和 Hive on Spark 为 SQL on Spark。 虽 然 Shark 不 再 开发 ， 但 其 架 
构 和 优化 仍 有 借鉴 意义 ， 因 此 也 会 在 文章 中 有 所 介绍 。 图 8-1 展 示 


了 Spark SQL 和 Hive on Spark 是 新 的 发 展 方向 。 


Shark 开 
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基于 Spark 的 新 语 助 现 有 
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图 8-1 Spark SQL 和 Hive on Spatk 是 新 的 发 展 方向 


D] 参考 文章 : m EGA, KEARE Spark SQL: 基于 内 存 的 大 数据 分 析 引 擎 》，《 程 序 员 》，2014.8。 


8.1.1. 使 用 Spark SQL 的 原因 


由 于 Shark 底 层 依赖 于 Hive， 这 个 架构 的 优势 是 对 传统 Hive 


户 可 以 将 Shark 无 颖 集成 进 现 有 系统 运行 查询 负载 。 但 是 我 们 也 看 到 一 些 问题 : 随 着 版 本 的 升级 ， 查 询 优化 器 依赖 了 


Hive on Spark 


Hive 


HPE] Spark 


FHive， 不 方便 添加 新 的 


优化 策略 ， 需 要 学 习 另 一 套 系统 和 进行 二 次 开发 ， 学 习 成 本 很 高 。 另 一 方面 ，MapReduce 是 进程 级 并 行 。 例 如 ，Hive 在 不 同 的 进程 空间 会 使 用 一 些 静态 变量 ， 当 在 同一 进程 空间 并 行 执行 多 线程 时 ， 多 线 


程 同时 写 同名 称 的 静态 变量 会 产生 一 致 性 问题 ， 


经 发 布 Spark SQL。 


此 Shark 需 要 使 


3 外 一 套 独 立 维护 的 Hive 源 码 分 支 。 为 了 解决 这 个 问题 ，AMPLab 和 Databricks 利 用 Catalyst 开 发 了 Spark SQL. 


在 Spark 1.0 版 本 中 已 


Spark 的 Full Stack 解 决 方案 为 


笔者 认为 主要 有 以 下 几 点 原因 。 


户 提供 了 多 样 的 数据 分 析 框架 ， 机 器 学 习 、 图 计算 、 流 计算 如 火 如 茶 地 发 展 和 流行 吸引 了 大 批 的 学 习 者 ， 那 么 为 什么 我 们 今天 还 是 要 重视 在 大 数据 环境 下 使 用 SQL 呢 ? 


1) 易 用 性 与 用 户 惯性 。 在 过 去 的 很 多 年 中 ， 有 大 批 程序 员 的 工作 是 围绕 DB+ 应 用 的 架构 来 做 的 ， 因 为 SQL 的 易 用 性 提升 了 应 用 的 开发 效率 。 程 序 员 已 经 习惯 了 采用 业务 逻辑 代码 调用 SQL 的 模式 去 写 程 


序 ， 悍 性 的 力量 是 强大 的 ， 如 果 还 能 


原 有 的 方式 解决 现 有 的 大 数据 问题 ， 何 乐 而 不 为 呢 ? 提供 SQL 和 JDBC 的 支持 会 让 传统 用 户 像 以 前 一 样 书写 程序 ， 大 大 减少 迁移 成 本 。 


2) 生态 系统 的 力量 。 很 多 系统 软件 性 能 好 ， 但 是 未 取得 成 功 便 没 落 了 ， 很 大 程度 上 是 由 于 生态 系统 问题 。 传 统 SQL 在 JDBC、ODBC、SQL 的 各 种 标准 下 形成 了 一 整套 成 熟 的 生态 系统 ， 很 多 应 用 组 件 和 


工具 可 以 迁移 使 


， 像 一 些 可 视 化 的 工具 、 数 据 分 析 工 具 等 ， 原 有 企业 的 IT 工具 可 以 无 颖 过 渡 。 


3) SOR. Spark SQLEE 在 扩展 支持 多 种 持久 化 层 ， 用 户 可 以 使 用 原 有 的 持久 化 层 存 储 数据 ， 但 是 也 可 以 体验 和 迁移 到 Spark SQL 提供 的 数据 分 析 环 境 下 分 析 Big Data, 


8.1.2 Spark SQL 架构 分 析 


Spark SQL 与 传统 DBMS 的 查询 优化 器 + 执行 器 的 架构 较为 类 似 ， 只 不 过 其 执行 器 是 在 分 布 式 环境 中 实现 ， 并 采用 Spark 作 为 执行 引擎 。Spark SQL 的 查询 优化 是 Catalyst， 其 基于 Scala 语 言 开发 ， 可 以 


灵活 利 


Scala 原 生 的 语言 特性 方便 地 扩展 功能 ， 英 定 了 Spark SQL 的 发 展 空间 。Catalyst 将 SQL 翻译 成 最 终 的 执行 计划 ， 并 在 这 个 过 程 中 进行 查询 优化 。 这 里 和 传统 不 太一 样 的 地 方 就 在 于 ，SQL 经 过 查询 


优化 器 最 终 转 换 为 可 执行 的 查询 计划 ， 传 统 DB 就 可 以 执行 这 个 查询 计划 了 。 而 Spark SQL 最 后 执行 还 是 会 在 Spark 内 将 执行 计划 转换 为 Spark 的 有 向 无 环 图 DAG 再 执行 。 


1.Catalyst 架 构 及 执行 流程 分 析 


Catalyst 的 整体 架构 如 图 8-2 所 示 。 
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8-2 中 可 以 看 到 整个 Catalyst 是 Spark SQL 的 调 


8-3 所 示 。 
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SQL 查询 的 规则 分 析 、 优 化 和 生成 执行 计划 的 各 个 阶段 


图 8-2 Spark SQL 查询 引擎 Catalyst 的 架构 


度 核心 ， 遵 循 传统 数据 库 的 查询 解析 步骤 ， 对 SQL 进行 解析 ， 转 换 为 逻辑 查询 计划 和 物理 查询 计划 ， 最 终 转换 为 Spark 的 DAG 执 行 。Catalyst 的 执行 


SglParser SQL 语句 进行 语法 解析 


QueryPlanner 19 5 f£ ET v 8 7 
物理 查 训 i 


prepareForExecution 调整 逆 据 分 布 


SqlParser 将 SQL 语句 转换 为 逻辑 查询 计划 ，Analyzer 对 逻辑 查询 计划 进行 属性 和 关系 关联 检验 ， 之 后 Optimizer 通 过 逻辑 查询 优化 将 逻辑 查询 计划 转换 为 优化 的 逻辑 查询 计划 ，QueryPlanner 将 优化 的 


逻辑 查询 计划 转换 为 物理 查询 计划 ，prepareForExecution 调 整数 据 分 布 ， 最 后 将 物理 查询 计划 转换 为 执行 计划 进入 Spark 执 行 任务 。 


2.Spark SQL 优化 策略 


查询 优化 是 传统 数据 库 中 最 为 重要 的 一 环 ， 这 项 技术 在 传统 数据 库 中 已 经 很 成 熟 。 除 了 查询 优化 ，Spark SQL 在 存储 上 也 进行 了 优化 ， 下 面 介 绍 Spark SQL 的 一 些 优化 策略 。 


(1) 内 存 列 式 存储 与 内 存 缓存 表 


Spark SQL 可 以 通过 cacheTable 将 数据 存储 转换 为 列 式 存储 ， 同 时 将 数据 加 载 到 内 存 缓存 。cacheTable 相 当 于 在 分 布 式 集群 的 内 存 物化 视图 ， 将 数据 缓存 ， 这 样 迭 代 的 或 者 交互 式 的 查询 不 用 再 从 
HDFS 读 数据 ， 直 接 从 内 存 读 取 数 据 大 大 减少 了 I/O 开 销 。 列 式 存储 的 优势 在 于 Spark SQL 只 需要 读 出 用 户 需要 的 列 ， 而 不 需要 像 行 存储 那样 每 次 都 将 所 有 列 读 出 ， 从 而 大 大 减少 内 存 缓存 数据 量 ， 更 高 效 地 
利用 内 存 数据 缓存 ， 同 时 减少 网 络 传输 和 MO 开销 。 数 据 按照 列 式 存储 ， 由 于 是 数据 类 型 相同 的 数据 连续 存储 ， 所 以 能 够 利用 序列 化 和 压缩 减少 内 存 空间 的 占用 。 
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(2) 列 存储 压缩 


为 了 减少 内 存 和 硬盘 空间 占用 ，Spark SQL 采用 了 一 些 压缩 策略 对 内 存 列 存储 数据 进行 压缩 。Spark SQL 的 压缩 方式 要 比 shark 丰 富 很 多 ， 如 它 支持 PassThrough、RunLengthEncoding、 
DictionaryEncoding、BooleanBitSet、IntDelta、LongDelta 等 多 种 压缩 方式 ， 这 样 能 够 大 幅度 减少 内 存 空间 占用 、 网 络 传输 和 IO 开销 。 


(3) 逻辑 查询 优化 


属性 列 、 减 少数 据 传输 和 计算 开销 ， 在 查询 优化 器 进行 转换 的 过 程 中 会 


SparkSQL 在 逻辑 查询 优化 ( 见 图 8-4) 上 支持 列 剪 枝 、 谓 词 下 压 、 属 性 合并 等 允 辑 查询 优化 方法 。 列 剪 枝 为 了 减少 读 取 不 必要 的 
优化 列 剪 枝 。 


下 面 介绍 一 个 逻辑 优化 的 例子 。 


SELECT Class FROM (SELECT ID, Name, Class FROM STUDENT ) S WHERE S.ID=1 


Optimization 


Project 
Class 


Project 
Class 


Filter 
ID=1 


Filter 
ID=1 


Project 
ID, Name, Class 


Student 


Student 
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Catalyst 将 原 有 查询 通过 谓词 下 压 ， 将 选择 操作 ID= 1 优先 执行 ， 这 样 过 滤 大 部 分 数据 ， 通 过 属性 合并 将 最 后 的 投影 只 做 一 次 ， 最 终 保留 Class 属 性 列 。 


(4) Join 优 化 


Spark SQL 深度 借鉴 传统 数据 库 的 查询 优化 技术 的 精 丹 ， 同 时 在 分 布 式 环境 下 调整 和 创新 特定 的 优化 策略 。 现 在 Spark SQL 对 Join 进 行 了 优化 ， 支 持 多 种 连接 算法 ， 现 在 的 连接 算法 已 经 比 Shark 丰 富 ， 


而 且 很 多 原来 Shark 的 元 素 也 逐步 迁移 过 来 ， 如 BroadcastHashJoin、BroadcastNestedLoopJoin、HashJoin、LeftSemiJoin， 等 等 。 


下 面 介绍 其 中 的 一 个 Join 算 法 。 


BroadcastHashJoin 将 小 表 转 化 为 广播 变量 进行 广播 ， 这 样 避免 Shuffle 开 销 ， 最 后 在 分 区 内 做 Hash 连 接 。 这 里 使 用 的 就 是 Hive 中 Map Side Join 的 思想 ， 同 时 使 用 DBMS 中 的 Hash 连 接 算 法 做 连接 。 


随 着 Spark SQL 的 发 展 ， 未 来 会 有 更 多 的 查询 优化 策略 加 入 进来 ， 同 时 后 续 Spark SQL 会 支持 像 Shark Server 一 样 的 服务 端 和 JDBC 接 口 ， 兼 容 更 多 的 持久 化 层 ， 
力 的 结构 化 大 数据 查询 引擎 正在 崛起 。 


3. 如 何 使 用 Spark SQL 


面 给 出 使 用 Spark SQL 的 示例 。 


如 NoSQL、 传 统 的 DBMS 等 。 一 个 强 有 


val sqlContext = new org.apache.spark. sql. SQLContext (sc) 

/* 在 这 里 引入 sqlContext 下 的 所 有 方法 ， 就 可 以 直接 用 SQL 方法 查询 */ 

import sqlContext. 

case class Person (name: String, age: Int 

/* 下 面 的 people 是 含有 case 类 型 数据 的 RDD， 和 Scala 的 zmplicit 机 制 将 RD 转换 为 SchemaRDD。 A EARD PD KROER ÙRDD* / 
val people = sc.textFile (" "examples/src/main/resources/people. txt") .map ( .split (", ") ) .map (p => Person (p (0), p (1) .trim.toInt) ) 
/* 在 内 存 的 元 数据 中 注册 表 信息 ， 这 样 一 个 Spark SQL 表 就 创建 完成 了 */ 

people.registerAsTable ("people") 

/* SQL 语句 就 会 触发 上 面 分 析 的 Spark SQL 的 执行 过 程 

val teenagers = sql ("SELECT name FROM people WHERE age >= 13 AND age <= 19") 

/* 最 后 生成 的 teenagers 也 是 一 个 RDD*/ 

teenagers.map (t => "Name: " + 七 (0) ) .collect () .foreach (println) 


下 面 将 介绍 Shark， 虽 然 Shark 已 经 完成 学 术 使 命 终 止 开发 ， 但 是 其 中 的 架构 和 优化 策略 还 是 有 借鉴 意义 的 。 


8.1.3 Shark 简 介 


下 面 介绍 Shark 的 架构 ， 如 图 8-5 所 示 。 在 整体 架构 中 ，Shark 复 用 了 Hive Metastore, Hive SerDe， 以 及 查询 解析 器 和 优化 器 ， 但 是 用 Spark 重 写 了 Hive 的 执 
略 。 最 初 Shark 为 了 学 术 使 命 ， 复 用 Hive 的 查询 优化 器 ， 虽 然 缩短 了 开发 周期 ， 但 是 这 样 不 得 不 维护 一 个 单独 的 Hive 分 支 用 来 支持 Shark， 随 着 系统 复杂 性 的 提升 ， 
化 器 已 经 代价 太 大 ， 最 终 Databricks 宣 布 终止 Shark 开 发 。 


Hive 


metastore 


Apache Spark 


于 Operator， 并 实现 了 基于 内 存 的 优化 策 
优化 策略 的 不 断 扩 充 ， 维 持 Hive 的 查询 优 


图 8-5 Shark 架 


1 执行 流程 


Shark 读 取 用 户 的 查询 表达 式 ， 运 用 Hive 的 解析 器 和 查询 优化 器 形成 查询 树 进行 语法 解析 和 逻辑 物理 优化 ， 最 终 形 成 等 待 执行 的 执行 计划 。 执 行 器 遍历 执行 计划 树 到 叶子 节点 的 Operator 执 行 ， 执 行 后 
再 回溯 到 父母 节点 继续 执行 ， 直 到 完全 执行 完整 个 查询 计划 。Operator 中 不 再 用 Hadoop 的 MapReduce 进 行 分 布 式 计算 ， 而 是 用 Spark 重 写 Operator 进 行 分 布 式 计算 。 


2. 容 错 性 


Spark 记 录 了 RDD 的 Lineage， 即 RDD 的 依赖 关系 ， 功 能 类 似 于 传统 数据 库 中 的 redo 日 志 的 功能 。 当 有 分 区 丢失 或 者 出 错时 ，Spark 可 以 从 源头 的 基础 数据 重 做 运算 恢复 分 区 数据 。 这 也 是 和 iImpala 进 


行 对 比 的 一 个 优势 ，Impala 如 果 任务 失败 ， 则 需要 整体 重 做 全 部 任务 。 


3. 多 数据 计算 范式 混合 


Shark 和 其 他 SQL on Hadoop 产 品 对 比 的 一 大 优势 还 源 于 其 可 以 和 其 他 多 种 计算 范式 混合 计算 。 使 用 Shark 通 过 SQL 建 立 内 存 表 ， 既 可 以 通过 MLlib 进 行 Mach 


ine Learning 的 运算 ， 又 可 以 用 GraphX 进 


行 大 规模 图 计算 ， 等 等 ， 使 用 户 方便 地 进行 一 站 式 数据 流水 线 计算 ， 而 不 需要 有 一 个 持久 化 层 ， 如 HDFSs 暂 存 中 间 数 据 。 无 疑 会 大 幅度 减少 性 能 开销 ， 同 时 提升 开发 效率 和 复杂 度 ， 更 减少 了 不 同系 统 间 兼 容 


的 代价 。 


下 面 看 一 个 SQL 和 机 器 学 习 结合 的 例子 。 


进入 Spark Shell 进 行 交 互 式 查询 ， 方 便 用 户 迅 速 实 现 想法 。 


$./bin/shark-shell 
/* 通过 SparkContext 的 SQL2rdd 方 法 运行 SQL 查询 ， 从 Shark 中 读 出 表 并 在 内 存 建立 RDD */ 
Scala» val youngUsers = sc.SQL2rdd ("SELECT * FROM users WHERE age < 20") 
/* 对 内 存 youngUsers 的 RDD 进 行 map， 将 数据 提取 要 进行 Machine Learningíf]feature*/ 
Scala» val featureMatrix = youngUsers.map (extractFeatures ( ) ) 

/* 调用 ML]ib 中 的 kmeans 进 行 用 户 数据 聚 类 */ 


Scala» kmeans (featureMatrix) 


我 们 看 到 通过 短 短 几 行 代码 就 实现 了 SQL 和 机 器 学 习 的 运算 需求 。 


E 


4 性 能 对 比 


如 图 8-6 所 示 ， 从 最 新 的 伯克利 Big Data Benchmark 上 的 一 个 例子 可 以 看 到 : 这 个 查询 的 执行 首先 解析 每 个 元 组 的 应 用 字符 串 ， 然 后 进行 一 次 高 基数 的 聚集 函数 运算 。 由 于 UserVistits 表 有 些 列 没有 


到 ，Redshift 的 列 存 储 只 读 需要 的 数据 体现 了 优势 。 同 时 Shark 在 内 存 也 是 基于 列 存 储 ， 从 两 者 的 对 比 看 来 ，Shark 的 性 能 瓶颈 在 于 字符 串 解析 。 再 看 Impala， 由 了 


FImpala 是 从 操作 系统 的 cache 读 数据 ， 它 


就 需要 读 和 解压 缩 整个 行 ， 造 成 和 Shark 相 比 有 一 定 的 劣势 ， 但 是 Impala 相 比 Shark 应 用 了 更 加 高 效 的 编译 后 的 执行 代码 ， 比 Shark 有 一 定 的 优势 ， 这 两 个 因素 造成 Impala 和 Shark 达 到 差不多 的 处 理 内 存 表 
的 吞吐 量 。 对 大 的 结果 集 来 说，Impala 会 由 于 物化 输出 表 造 成 更 高 的 延迟 。 


Aggregation Query 
SELECT SUBSTR (sourceIP, 1, X), SUM (adRevenue) FROM uservisits GROUP BY SUBSTR (sourceIP, 1, X) 


Query 2A Query 2B Query 2C 
2.067.313 groups 31.348,913 groups 253,890,330 groups 
700 BN — 700 一 一 800 B—— 
T T T 
600 一 一 一 600 一 一 一 700 
600 — 
500 -一 一 500 
D 
3 5 500 4E rir 
400 -E-— 400 a 9 = 
n 
G- 一， 一 一 
300 ž 300 m E , FEE 
í— ë E — ———— a4 -— ey e 
i 一 E: EO a Q Q 三 只 g 300 —58 -.&- g 95 E. 
DALSZE "E Nc j Tm e 
^00 — L8 ^ 8 m. LOL. 8 Ww. € m t= 2 
200 — 2 * S45 20—€ 855-4 200—2- M. i. 
cà E à Es i = Z Z 万 
E um B [77 5 [77 € : 
100—357 -= ^ - 100 — 9- - - — 100—2- JA 
0 0 0 


图 8-6 Shark 4 SQL on Hadoop 测 试 对 比 


综合 看 来 ，Spark SQL 和 Shark 相 比 其 他 SQL on Hadoop 产 品 存在 以 下 几 点 优势 。 


1) 依托 内 存 计算 框架 Spark， 利 用 内 存 计算 大 幅度 提升 性 能 。 


2) 支持 Spark Shell 进 行 交 互 式 查询 ， 使 用 户 想法 可 以 快速 实现 。 


3) 依托 Spark 生 态 系统 ， 可 以 方便 地 构建 全 栈 数 据 解决 方案 。 


8.1.4 Hive on Spark 


随 着 Hive on Spark 的 立项 ， 未 来 的 Hive 会 支持 MapReduce、Tez 和 Spark 三 大 执行 引擎 。 相 比 Shark 和 Spark SQL, Hive on Spark 会 全 面 支持 现 有 Hive， 也 就 意味 着 原来 使 用 Hive 的 用 户 可 以 无 颖 地 
过 渡 ， 数 据 不 需要 迁移 ， 原 来 针对 业务 逻辑 写 的 Hive QL 脚 本 不 需要 重 写 ， 只 是 换 了 个 更 加 快速 的 执行 引 丈 。 语 法 上 支持 全 部 的 Hive QL 语 法 和 扩展 特性 ， 同 时 会 集成 Hive 的 权限 管理 、 运 行 监控 、 审 计 和 其 
他 基于 Hive 的 管理 工具 。 基 于 Hive 生 态 系统 的 组 件 可 以 过 渡 到 Spark 执 行 引擎 中 使 用 。 由 于 都 是 基于 Spark 作 为 执行 引擎 ， 上 层 做 的 优化 难说 谁 比 谁 有 多 大 的 性 能 优势 ， 生 态 系统 的 力量 将 是 最 重要 的 决定 
素 。 


DH 


Hive on Spark 设 计 方 向 及 潜在 问题 如 下 。 


1) 数据 表 以 RDD 方 式 存储 。 


2) Shuffle 和 Join: 由 于 Spark 的 Shuffle 不 进行 分 组 排序 ， 所 以 Hive 的 Join 基 于 MapReduce 的 Shuffle 来 做 MapSideJoin 和 ReduceSideJoin，Spark 社 区 已 经 开始 发 起 改变 或 者 提供 相应 的 Shuffle 
AP1， 同 时 原 有 的 Hive Join 算 法 会 迁移 过 来 。 


3) 线程 安全 问题 : Spark 执 行 任务 和 分 区 是 在 一 个 JVM 空 间 执行 多 线程 ， 而 传统 Hive 的 Map 端 操作 树 或 者 Reduce 端 操作 树 将 任务 的 每 个 线程 分 在 不 同 的 JVM ， 因 为 Hive 的 操作 中 有 静态 变量 ， 这 样 就 
会 产生 并 发 和 线程 安全 问题 。 这 里 也 是 需要 重新 设计 的 地 方 。 


4) Java API: Hive on Spark 需 要 社区 提供 Job 监 控 和 RDD 扩 展 的 AP1， 这 样 就 能 够 和 原 有 组 件 融合 。 原 有 组 件 可 以 更 容易 地 使 用 Spark。 


感 兴趣 的 读者 可 以 在 JIRA 上 了 解 这 个 项 目 [1]。 


[1] https:/ /issues.apache.org/jira/ browse/ HIVE-7292。 


8.1.5 ”未 来 展望 


Spark SQL 提供 了 对 RDD 的 SQL 支持 ， 同 时 支持 其 他 数据 源 ， 如 Parquet 文 件 和 Hive 表 。 统 一 这 些 强大 的 数据 存储 模型 能 够 让 用 户 更 加 方便 地 分 析 复杂 的 数据 。 统 一 的 Spark 数 据 平台 能 够 让 用 户 选择 需 
要 的 工具 去 处 理 数据 ， 而 不 需要 再 构建 男 一 套 系统 。 未 来 Databricks 会 继续 在 Spark SQL 生成 自 定义 字 节 码 加 速 解析 表达 式 ， 支 持 更 多 数据 源 ， 如 Avro、Hbase 以 及 更 丰富 的 其 他 语言 API。 


Databricks 和 AMPLab 会 继续 投资 Spark SQL， 希 望 使 其 成 为 结构 化 数据 分 析 的 标准 。Shark 已 经 完成 学 术 使 命 退出 历史 舞台 ，Hive on Spark 刚 刚 发 起 。Spark SQL, Shark, Hive on Spark 扮 演 了 
Spark 生 态 系统 中 SQL on Hadoop 这 个 重要 的 角色 ， 为 Spark 生 态 系统 完备 性 提供 强 有 力 的 支持 。 同 时 看 到 随 着 Spark 生 态 系统 的 发 展 及 壮大 ， 三 者 也 从 中 受益 ， 用 户 通过 全 栈 的 数据 分 析 栈 开源 节 流 ， 会 越 
来 越 接纳 和 采用 Spark 的 全 栈 式 解决 方案 ， 这 样 用 户 也 会 越 来 越 多 地 采用 SQI on Spark 作 为 自身 的 OLAP 解 决 方案 。 这 一 切 迹 象 表明 ， 未 来 SQL on Spark 的 应 用 和 发 展会 很 有 想象 空间 。 


8.2 Spark Streaming 


Spark Streaming 是 一 个 批 处 理 的 流 式 计算 框架 。 它 的 核心 执行 引擎 是 Spark， 适 合 处 理 实时 数据 与 历史 数据 混合 处 理 的 场景 ， 并 保证 容错 性 。 下 面 将 详细 介绍 Spark Streaming, 


8.2.1 Spark Streaming 简 介 


Spark Streaming 是 构建 在 Spark 上 的 实时 流 计 算 框架 ， 扩 展 了 Spark 流 式 大 数据 处 理 能 力 。Spark Streaming 将 数据 流 以 时 间 片 为 单位 分 割 形成 RDD， 使 用 RDD 操 作 处 理 每 一 块 数据 ， 每 块 数据 (也 就 


是 RDD) 都 会 生成 一 个 Spark Job 进 行 处 理 ， 最 终 以 批 处 理 的 方式 处 理 每 个 时 间 片 的 数据 ， 如 图 8-7 所 示 。 
streaming i 
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Spark Streaming 编 程 接口 和 Spark 很 相似 。 在 Spark 中 ， 通 过 在 RDD 上 进行 Transformation (如 map、filter 等 ) 和 Action (如 count、collect 等 ) 算 子 运算 。 在 Spark Streaming 中 通过 在 
DStream (表示 数据 流 的 RDD 序 列 ) 上 进行 算 子 运算 。 图 8-8 为 Spark Streaming 转 化 过 程 。 


图 8-7 Spark Streaming 生 成 Job 
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var sl=new TTLogInputDsStream(...) 
var s2-new TTLoglInputDStrean(...) 
s=sl jo1n(s2).map*....) 
s.map(...).foreach(...) Mapped DStream 
s. foreach(...) 
s reduce(...) foreach() 
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图 8-8 Spark Streaming 转 化 过 程 
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8-8 中 的 Spark Streaming 将 程序 中 对 DStream 的 操作 转换 为 DStream 有 向 无 环 图 (DAG) 。 对 于 每 个 时 间 片 ，DStream DAG 会 产生 一 个 RDD DAG。 在 RDD 中 通过 Action 算 子 触发 一 个 Job，Spark 
Streaming 将 Job 提 交 给 JobManager。JobManager 将 Job 插 入 维护 的 Job 队 列 ，JobManager 将 队列 中 的 Job 逐 个 提交 给 Spark DAGScheduler，Spark 调 度 Job， 并 将 Task 分 发 到 各 节点 的 Executor 上 执 


行 。 
(1) 优势 及 特点 
1) 多 范式 数据 分 析 管 道 : 能 和 Spark 生 态 系统 其 他 组 件 融合 ， 实 现 交 互 查询 和 机 器 学 习 等 多 范式 组 合 处 理 。 


2) 扩展 性 : 可 以 运行 在 100 个 节点 以 上 的 集群 ， 延 迟 可 以 控制 在 秒 级 。 


3) 容错 性 : 使 用 Spark 的 Lineage 及 内 存 维护 两 份 数据 进行 备份 达到 容错 。RDD 通 过 Lineage 记 录 下 之 前 的 操作 ， 如 果 某 节点 在 运行 时 出 现 故障 ， 则 可 以 通过 宛 余 备 份 数据 在 其 他 节点 重新 计算 得 到 。 


对 于 Spark Streaming 来 说 ， 其 RDD 的 Lineage 关 系 如 图 8-9 所 示 ， 图 中 的 每 个 长 椭圆 形 表示 一 个 RDD， 椭 圆 中 的 每 个 圆 形 代 表 一 个 RDD 中 的 一 个 分 区 (partition) ， 图 中 每 一 列 的 多 个 RDD 表 示 一 个 
DStream (图 中 有 3 个 DStream) ，t= 1 和 t= 2 代表 不 同 分 片 下 的 不 同 RDD DAG。 可 以 看 到 图 中 的 每 一 个 RDD 都 是 通过 Lineage 相 连接 形成 了 DAG， 由 于 Spark Streaming 输 入 数据 可 以 来 自 于 磁盘 ， 如 
HDFS (通常 由 三 份 副本 ) ， 也 可 以 来 自 于 网 络 ，Spark Streaming 会 将 网 络 输入 的 数据 中 的 每 一 个 数据 流 复制 两 份 到 其 他 的 机 器 。 这 些 数据 都 能 通过 多 余数 据 及 Lineage 的 重 算 机 制 保证 容错 性 。 所 以 RDD 
中 的 任意 Partition 出 错 ， 都 可 以 并 行 地 在 其 他 机 器 上 将 缺失 的 Partition 重 算出 来 。 


图 8-9 Spark Streaming 容 错 性 


4) 吞吐 量 大 : 将 数据 转换 为 RDD， 基 于 批 处 理 的 方式 ， 提 升 数据 处 理 吞吐 量 。 图 8-10 是 Berkeley 利 用 WordCount 和 Grep 两 个 用 例 所 做 的 测试 。 
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图 8-10 Spark Streaming 与 Storm 吞 吐 量 的 比较 


5) 实时 性 : Spark Streaming 也 是 一 个 实时 计算 框架 ，Spark Streaming 能 够 满足 除 对 实时 性 要 求 非常 高 (如 高 频 实时 交易 ) 之 外 的 所 有 流 式 准 实时 计算 场景 。 目 前 选取 Spark Streaming 最 小 的 
Batch Size 在 0.5~2s (对 比 : Storm 目 前 最 小 的 延迟 是 100ms 左 右 ) 。 


(2) 适用 场景 


Spark Streaming 适 合 需要 历史 数据 和 实时 数据 结合 进行 分 析 的 应 用 场景 ， 对 于 实时 性 要 求 不 是 特别 高 的 场景 也 能 够 胜任 。 


8.2.2 Spark Streaming 架 构 


Spark Streaming 的 整体 架构 如 图 8-11 所 示 。 


组 件 介绍 如 下 。 


* Network Input Tracker: 通过 接收 器 接收 流 数据 ， 并 将 流 数 据 映 射 为 输入 DStream。 


Spark Client 


RDD graph| | Scheduler 


ssc-new StreaminaContext Shuffle 
t7ssctwitterStream( "... " ) manager tracker 


t.filter(...).foreach(...) Cluster 
Manager 


Spark Worker 


Task Block 
threads manager 


图 8-11 Spark Streaming 44 E] 


: Job Scheduler: 周期 性 地 查询 DStream 图 ， 通 过 输入 的 流 数据 生成 Spatk Job ， 将 Spatk Job4 X 5Job Manager 执 行 。 


“ JobManager: 维护 一 个 Job 队 列 ， 将 队列 中 的 Job 提 交 到 Spark 执 行 。 


通过 图 8-11 可 以 看 到 Job Scheduler 负 责 作业 调度 ，Taskscheduler 负 责 分 发 具体 的 任务 ，Block tracker 进 行 块 管理 。 在 从 节点 ， 如 果 是 通过 网 络 输入 的 流 数 据 ， 则 将 数据 存储 两 份 进 行 容错 。Input 
receiver 源 源 不 断 地 接收 输入 流 ，Task execution 负 责 执行 主 节点 分 发 的 任务 ，Block manager 负 责 块 管理 。Spark Streaming 的 整体 架构 和 Spark 很 相近 ， 很 多 思想 是 可 以 迁移 理解 的 。 


8.2.3 Spark Streaming 原 理 剖析 


下 面 将 通过 一 个 example 示 例 的 源码 呈现 Spark Streaming 的 底层 机 制 。 示 例 及 源码 基于 Spark 1.0 版 本 ， 后 续 的 发 布 版 中 可 能 会 有 更 新 。 
1. 初 始 化 与 集群 上 分 布 接收 器 


图 8-12 所 示 为 Spark Streaming 执 行 模型 从 中 可 看 到 数据 接收 及 组 件 间 的 通信 。 
执行 模型 一 一 接收 数据 


Spark Streaming Spark Driver 


Spark Worker 


StreamingContext.start() 


数据 接收 


生成 数据 块 


Network 


图 8-12 Spark Streaming 执 行 模型 


初始 化 的 过 程 主要 可 以 概括 为 以 下 两 点 。 

1) 调度 器 的 初始 化 。 

2) 将 输入 流 的 接收 器 转化 为 RDD 在 集群 打 散 ， 然 后 启动 接收 器 集合 中 的 每 个 接收 器 。 
下 面 通过 具体 的 代码 更 深入 地 理解 这 个 过 程 。 

(1) NetworkWordCount 示 例 


本 例 以 NetworkWordCount 作 为 研究 Spark Streaming 的 入 口 程序 。 


object NetworkWordCount { 
def main (args: Array[String]) ( 
if (args.length < 2) ( 
System.err.println ("Usage: NetworkWordCount <hostname> <port>") 
System.exit (1) 
} 
StreamingExamples.setStreamingLogLevels () 
val sparkConf = new SparkConf () .setAppName ("NetworkWordCount") 
/* 创 建 StreamingContext 对 象 ， 形 成 整个 程序 的 上 下 文 */ 
val ssc = new StreamingContext (sparkConf, Seconds (1) ) 
/* 通 过 socketTextStream 接 收 源源 不 断 地 socket 文 本 流 */ 
val lines = ssc.socketTextStream (args (0) , args (1) .toInt, StorageLevel.MEMORY AND DISK SER) 
val words = lines.flatMap ( .split (" ") ) peo T 
val wordCounts = words.map (x => (x, 1) ) .reduceByKey ( + ) 
wordCounts.print () UA 
ssc.start () 
ssc.awaitTermination () 


(2) 进入 scoketTextStream 


def socketTextStream ( 

hostname: String, 

port: Int, 

Storagelevel: StorageLevel = StorageLevel.MEMORY AND DISK SER 2) : 
ReceiverInputDStream[String] - ( DAR RR 
/* 内 部 实际 调用 的 socketStream 方 法 */ 


SocketStream[String] (hostname, port, SocketReceiver.bytesToLines, storageLevel) 


$ 
/* 进 入 socketStream 方 法 */ 

def socketStream[T: ClassTag] C 
hostname: String, 
port: Int, 
converter: (InputStream) => Iterator[T], 
storageLevel: StorageLevel 

): ReceiverInputDStream[T] = ( 
/* 此 处 初始 化 SocketInputDStream 对 象 */ 
new SocketInputDStream[T] (this, hostname, port, converter, storageLevel) 
} 


(3) 初始 化 SocketlnputDSstream 


在 之 前 的 Spark Streaming 介 绍 中 ， 读 者 已 经 了 解 到 整个 Spark Streaming 的 调度 灵魂 就 是 DStream 的 DAG， 可 以 将 这 个 DStream DAG 类 比 Spark 中 的 RDD DAG， 而 DStream 类 比 RDD，DStream 可 
以 理解 为 包含 各 个 时 间 段 的 一 个 RDD 集 合 。SocketInputDStream 就 是 一 个 DStream。 


private[streaming] 
class SocketInputDStream[T: ClassTag] ( 


Gtransient ssc :  StreamingContext, 
host: String, 
port: Int, 


bytesToObjects: InputStream => Iterator|[T], 
storageLevel: StorageLevel 
) extends ReceiverInputDStream[T] (ssc ) { 
def getReceiver O : Receiver[T] = ( 
new SocketReceiver (host, port, bytesToObjects, storageLevel) 
$ 
} 


(4) 触发 StreamingContext 中 的 Start () 方法 


上 面 的 步骤 基本 完成 了 Spark Streaming 的 初始 化 工作 。 类 似 于 Spark 机 制 ，Spark Streaming 也 是 延迟 (Lazy) 触发 的 ， 只 有 调用 了 start () 方法 ， 才 真正 地 执行 了 。 


private[streaming] val scheduler = new JobScheduler (this) 
/*StreamingContext 中 维持 着 一 个 调度 器 */ 
def start (): Unit = synchronized { 


/* 启 动 调度 器 */ 


scheduler.start () 


(5) JobScheduler.start () 启动 调度 器 


在 start 方 法 中 初始 化 了 很 


的 组 件 。 


def start (0: Unit = synchronized { 


/* 初 始 化 事件 处 理 Actor， 当 有 消息 传递 给 Actor 时 ， 调 用 processEvent 进 行事 件 处 理 */ 
eventActor = ssc.env.actorSystem.actorOf (Props (new Actor ( 
def receive = ( 
case event: JobSchedulerEvent => processEvent (event) 


l 
}) , "JobScheduler") 
/* 启 动 监听 总 线 */ 
listenerBus.start () 
receiverTracker = new ReceiverTracker (ssc) 
/* 启 动 接收 器 的 监听 器 receiverTracker*/ 
receiverTracker.start () 
/* 启 动 job 生 成 器 */ 


jobGenerator.start () 


"s 


(6) ReceiverTrackeraé 


人 * 进 入 ReceiverTracker 查 看 */ 


private[streaming] 

class ReceiverTracker (ssc: StreamingContext) extends Logging { 
val receiverInputStreams = ssc.graph.getReceiverInputStreams () 
def start O = synchronized ( 


val receiverExecutor = new ReceiverLauncher () 
if (! receiverInputStreams.isEmpty) { 
/* 初 始 化 ReceiverTrackerActor */ 
actor = ssc.env.actorSystem.actorOf (Props (new ReceiverTrackerActor) ， 
"ReceiverTracker") 
/*JiBlReceiverLauncher O Køl, (C) 中 进行 介绍 */ 
receiverExecutor.start () 


1 
} 
/* 读 者 可 以 先 参考 ReceiverTrackerActor 的 代码 查看 实现 注册 Receiver 和 注册 Block 元 数据 信息 的 功能 。 */ 


private class ReceiverTrackerActor extends Actor ( 
def receive = { 
/* 接 收 注册 receiver 的 消息 ， 每 个 receiver 就 是 一 个 输入 流 接 收 器 ，Receiver 分 布 在 Worker 节 点 ， 一 个 Receiver 接 收 一 个 输入 流 ， 一 个 Spark Streaming 集 群 可 以 有 多 个 输入 流 */ 
case RegisterReceiver (streamId, typ, host, receiverActor) => 
registerReceiver (streamId, typ, host, receiverActor, sender) 
sender ! true 
case AddBlock (receivedBlockInfo) => 
addBlocks (receivedBlockInfo) 


(7) receivelauncher 类 ， 在 集群 上 分 布 式 启动 接收 器 


class ReceiverLauncher ( 
"étransient val thread = new Thread () { 
override def run O { 
/* 启 动 ReceiverTrackerActor 已 经 注册 的 Receiver*/ 
startReceivers () 


下 面 进入 startReceivers 方 法 ， 方 法 中 将 Receiver 集 合 转变 为 RDD， 从 而 在 集群 上 打 散 ， 分 布 式 分 布 。 如 图 8-13 所 示 ， 一 个 集群 可 以 分 布 式 地 在 不 同 的 Worker 节 点 接收 输入 数据 流 。 


RDD[Receiver] 
SocketInputStrea N | FileInputStream 


图 8-13 Spark Streaming 接 收 器 


private def startReceivers () { 
/* 获 取 之 前 配置 的 接收 器 */ 
val receivers = receiverInputStreams.map (nis => ( 
val rcvr - nis.getReceiver () 
rcvr.setReceiverld (nis.id) 
rcvr 


p 


/* 创建 并 行 的 在 不 同 Worker 节 点 分 布 的 receivez 集 合 */ 

val tempRDD = 
if (hasLocationPreferences) { 
val receiversWithPreferences = receivers.map (r => (r, Seq (r.preferredLocation.get) ) ) 
ssc.sc.makeRDD[Receiver[ ]] (receiversWithPreferences) 


] else ( 
/* 在 这 里 创造 RDD 相 当 于 进入 SparkContext .makeRDD， 此 经 典 之 处 在 于 将 receivers 集 合作 为 一 个 RDD [Receiver] 进 行 分 区 。 即 使 只 有 一 个 输入 流 ， 按 照 分 布 式 分 区 方式 ， 也 是 将 输入 分 布 在 Worker 端 而 不 在 Master*/ 
ssc.sc.makeRDD (receivers, receivers.size) 


/* 调 用 Sparkcontext 中 的 makeRDD 方 法 ， 本 质 是 调用 将 数据 分 布 式 化 的 方法 parallelize*/ 


/* def makeRDD[T: ClassTag] (seq: Seq[T]， numSlices: Int = defaultParallelism) : //RDD[T] = ( parallelize (seq, numSlices) */ 
/* 在 RDD[Receiver[_]] 每 个 分 区 的 每 个 Receiver 上 都 同时 启动 ， 这 样 其实 Spark Streaming 可 以 构建 大 量 的 分 布 式 输入 流 */ 
val startReceiver = (iterator: Iterator[Receiver[ ]]) => { 


if (! iterator.hasNext) { 
throw new SparkException ( 
"Could not start receiver as object not found.") 
} 
val receiver = iterator.next () 

/* 此 处 的 supervisorImp1 是 一 个 监督 者 的 角色 ， 在 下 面 的 内 容 中 将 会 剖析 这 个 对 象 的 作用 */ 
val executor = new ReceiverSupervisorImpl (receiver, SparkEnv.get) 
executor.start () 
executor.awaitTermination () 


H 
/ 
/* 将 receivers 的 集合 打 散 ， 然 后 启动 它们 */ 


ssc.sparkContext.runJob (tempRDD, startReceiver) 


2 数据 接收 与 转化 


网 


如 


在 “1. 初 始 化 与 集群 上 分 布 接收 器 ”中 介绍 了 ，receiver 集 合 转换 为 RDD 在 集群 上 分 布 式 地 接收 数据 流 。 那 么 每 个 receiver 是 怎样 接收 并 处 理 数据 流 的 呢 ? Spark Streaming 数 据 接收 与 转化 的 示意 
图 8-14 所 示 。 


到 8-14 的 主要 流程 如 下 。 


1) 数据 缓冲 : 在 Receiver 的 receive 函 数 中 接收 流 数 据 ， 将 接收 到 的 数据 源源 不 断 地 放 入 BlockGenerator.currentBuffer。 


缓冲 数据 转化 为 数据 块 : 在 BlockGenerator 中 有 一 个 定时 器 (recurring timer) ， 将 当前 缓冲 区 中 的 数据 以 用 户 定义 的 时 间 间 隔 封装 为 一 个 数据 块 Block， 放 入 BlockGenerator 的 blocksForPush 


N 


队列 中 。 


3) 数据 块 转化 为 Spark 数 据 块 : 在 BlockGenerator 中 有 一 个 BlockPushingThread 线 程 ， 不 断 地 将 blocksForPush 队 列 中 的 块 传递 给 Blockmanager， 让 BlockManager 将 数据 存储 为 块 ， 读 者 可 以 在 
本 书 的 Spark 1O 章 节 了 解 Spark 的 底层 存储 机 制 。BlockManager 负 责 Spark 中 的 块 管理 。 


4) 元 数据 存储 : 在 pushArrayBuffer 方 法 中 还 会 将 已 经 由 BlockManager 存 储 的 元 数据 信息 (如 Block 的 ID 号 ) 传递 给 ReceiverTracker，ReceiverTracker 将 存储 的 blockld 放 到 对 应 Streamld 的 队列 
中 。 


上 面 过 程 中 涉及 最 多 的 类 就 是 BlockGenerator， 在 数据 转化 的 过 程 中 ， 其 扮演 着 不 可 或 缺 的 角色 。 


private[streaming] class BlockGenerator ( 
listener: BlockGeneratorListener, 
receiverlId: Int, 
conf: SparkConf 

) extends Logging 


Receiver 


store() 


BlockGenerator.curr 
entBuffer 
ArrayBuffer[Any] 
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CurrentBuffer 作为 一 个 数据 块 


Recurring Time BlockGenerator.blocksForPushing 
ArrayBlockingQueue[Block] ( blockQueueSize ) 
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将 一 个 数据 块 作为 BlockManager 的 数据 块 


ReceiverTracker 


BlockGenerator blockPus 
hingThread 
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报告 已 推送 数据 块 


receivedBlockInfo 
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BlockManager put 


如 果肉 存 已 满 ， 将 数据 写 入 磁 截 


(其 他 节点 
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内 存 的 入 口 
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数据 块 创建 副本 


图 8-14 Spark Streaming 数 据 接收 与 转化 
感 兴趣 的 读者 可 以 参照 图 8-14 中 的 类 和 方法 更 加 具体 地 了 解 机 制 。 由 于 篇 幅 所 限 ， 这 个 数据 生成 过 程 的 代码 不 再 具体 剖析 。 


3. 生 成 RDD 与 提交 Spark Job 


Spark Streaming 根 据 时 间 段 ， 将 数据 切 分 为 RDD， 然 后 触发 RDD 的 Action 提 交 Job，Job 被 提交 到 JobManager 中 的 Job Queue 中 ， 由 JobScheduler 调 度 ，Job Scheduler 将 Job 提 交 到 Spark 的 Job 调 
度 器 ， 然 后 将 Job 转 换 为 大 量 的 任务 分 发 给 spark 集 群 执行 。 


如 图 8-15 所 示 ，Jobgenerator 中 通过 下 面 的 方法 生成 Job 调 度 和 执行 。 


抗 摩 行 模型 一 一 Job 调度 


Spark Streaming + Spark Driver 


在 Worker 15 


执行 作 En 


图 8-15 Spark Streaming 调 度 模 型 


从 下 面 的 代码 中 可 以 看 出 ，Jobs 是 从 outputStream 中 生成 的 ， 然 后 触发 反 向 回溯 执行 整个 DStream DAG， 类 似 于 RDD 的 机 制 。 


Spark Worker 


private def generateJobs (time: Time) { 
SparkEnv.set (ssc.env) 
Try (graph.generateJobs (time) ) match ( 
case Success (jobs) => 
/* 获 取 输 入 数据 块 的 信息 */ 
val receivedBlockInfo = graph.getReceiverInputStreams.map { stream => 
} .toMap 
jobScheduler.submitJobSet (JobSet (time, jobs, receivedBlockInfo) ) 
case Failure (e) => 
jobScheduler.reportError ("Error generating jobs for time " + time, e) 
l 
eventActor ! DoCheckpoint (time) 


Í 
/* 下 面 进入 JobScheduler 的 submitJobSet 方 法 一 探究 竟 ，JobScheduler 是 整个 Spark Streaming 调 度 的 核心 组 件 */ 
def submitJobSet (jobSet: JobSet) { 
TS jobSets.put (jobSet.time, jobSet) 
jobSet.jobs.foreach (job => jobExecutor.execute (new JobHandler (job) ) ) 


l 
/* 进 入 Graph 生成 job 的 方法 ，graph 的 本 质 是 DStreamGraph 类 生成 的 对 象 */ 
final private[streaming] class DStreamGraph extends Serializable with Logging ( 
def generateJobs (time: Time): Seq[Job] = ( 
private val inputStreams = new ArrayBuffer[InputDStream[ 
private val outputStreams = new ArrayBuffer[DStream[ ]] 


110 
O 
val jobs = this.synchronized { 
outputStreams.flatMap (outputStream => outputStream.generateJob (time) ) 


} 
/*outputStreams 中 的 对 象 是 DStream， 下 面 进入 DStream 的 generateJob 一 探究 竟 */ 
private[streaming] def generateJob (time: Time): Option[Job] = 
getOrCompute (time) match ( 
case Some (rdd) => { 
val jobFunc = O => { 
val emptyFunc = { (iterator: Iterator[T]) => {} 
/* 此 处 相当 于 针对 每 个 时 间 段 生成 的 一 个 RDD， llis Contes cun JobltdE Spar] Job*/ 
context.sparkContext.runJob (rdd, emptyFunc) 
) 
Some (new Job (time, jobFunc) ) 
H 
case None => None 


E 


p 一 些 具体 的 DStream， 如 SocketInputStream 等 的 类 的 父 类 。 可 以 通过 SocketInputDStream 查 看 如 何 通过 上 面 的 getOrCompute 生 成 RDD*/ 


private[streaming] def getOrCompute (time: Time): OPtion[RDD[T]] = ( 
generatedRDDs.get (time) match ( 


case None => { 
if (isTimeValid (time) ) ( 


/* Dstream 是 个 父 类 ，Dstream 的 子 类 可 以 完成 不 同 算 子 运算 ， 这 样 的 继承 关系 意味 着 Action 类 型 的 Dstream 会 触发 compute 函 数 运算 ， 并 反 向 
compute (time) match { 
"generatedRDDs.put (time, newRDD) 


} 
在 SocketInputDStream 的 compute 方 法 中 生成 对 应 时 间 片 的 RDD。 
override def compute (validTime: Time) : OPtion[RDD[T]] = ( 
if (validTime >= graph.startTime) { 
val blockInfo = ssc.scheduler.receiverTracker.getReceivedBlockInfo (id) 
receivedBlockInfo (validTime) = blockInfo 
val blockIds = blockInfo.map ( .blockId.asInstanceOf [BlockId]) 
Some (new BlockRDD[T] (ssc.sc, blockIds) ) 
) else ( 
Some (new BlockRDD[T] (ssc.sc, Array[BlockId] © ) ) 


E 


调 到 顶层 的 pstream 类 运行 compute 函 数 计算 。 这 样 每 隔 一 段 时 间 ， 生 成 的 RDDF 


Dstream 是 个 父 类 ， 其 子 类 可 以 完成 不 同 算 子 运算 ， 这 样 的 继承 关系 意味 着 Action 类 型 的 Dstream 会 触发 compute 函 数 运 算 ， 并 反 向 回溯 到 顶层 的 Dstream 类 运行 compute 函 数 计算 ， 这 样 每 隔 一 段 时 


间 ， 生 成 的 新 RDD 反 向 计算 。 计 算 模式 类 似 于 RDD 的 DAG。 


8.2.4 Spark Streaming 调 优 


Spark Streaming 调 优 方式 和 Spark 调 优 方 式 很 相近 ， 可 以 互相 借鉴 。 


1. 运 行 时 间 调 优 


并 行 度 优化 。 确 保 任务 使 用 整个 集群 的 资源 ， 防 止 数据 倾斜 。 


减少 数据 序列 化 、 反 序列 化 以 及 减少 Task 提 交 和 分 发 开销 。 用 户 可 以 通过 配置 使 用 Kyro 使 序列 化 更 优化 。 当 批 处 理 窗口 时 间 间 隔 非 常 小 (例如 小 于 500ms) 时 ， 提 交 和 分 发 任务 的 延迟 变 得 很 大 ， 此 时 


应 适当 调 大 批 处 理 窗口 。 通 常情 况 下 ， 使 用 Standalone 模 式 和 Coarse-grained Mesos 模 式 会 比 使 用 Fine-Grained Mesos 模 式 延迟 更 小 。 


设置 合理 的 批 处 理 窗口 。Job 是 流水 线 执行 ， 要 防止 流水 线 阻塞 ， 就 需要 设置 合理 的 批 处 理 窗口 。 


2. 空 间 占用 调 优 


定时 清理 不 用 的 数据 。 用 户 通 过 配置 spark.cleaner.ttl 时 长 来 及 时 清理 超时 的 无 用 数据 及 元 数据 。 


GC (JVM 垃 圾 回收 ) 调 优 。 具体 方法 可 参考 Spark 性 能 调 优 的 章节 。 


控制 批 处 理 量 。Spark Streaming 一 个 批 处 理 窗口 内 接收 到 的 所 有 数据 均 在 Spark 可 用 内 存 区 域 中 存放 。 确 保 当 前 节点 Spark 的 可 用 内 存 能 够 容纳 这 个 batch 窗 


8.2.55 Spark Streaming 实例 


LAIF 


内 的 所 有 数据 。 


在 互联 网 应 用 中 ， 流 数据 处 理 是 一 种 常用 的 应 用 模式 ， 需 要 在 不 同 粒度 上 对 不 同 数据 进行 统计 ， 保 证 实时 性 的 同时 ， 又 需要 涉及 聚合 (aggregation) 、 去 重 (distinct) 、 连 接 (join) 等 较为 复杂 的 


统计 需求 (1。 如 果 使 用 MapReduce 框 架 ， 虽然 可 以 容易 地 实现 较为 复杂 的 统计 需求 ， 但 实时 性 却 无 法 得 到 保证 ， 反 之 ， 若 是 采用 Storm 这 样 的 流 式 框架 ， 实 时 性 昌 可 以 得 到 保证 ， 但 需求 的 实现 复杂 度 也 大 


大 提高 了 。Spark Streaming 在 实时 性 与 复杂 统计 需求 之 间 的 权衡 中 找到 了 一 个 平衡 点 ， 能 够 满足 大 多 数 用 户 的 流 计算 需求 。 


Spark Streming 是 Spark 的 一 个 组 成 部 分 ， 提 供 高 扩展 性 、 容 错 的 流 处 理 功 能 。 下 面 的 例子 基于 Standalone 的 Spark 程 序 ， 接 收 和 处 理 Twitter 的 真实 采样 推 特 流 。 在 这 个 例子 中 ， 用 户 可 以 选择 使 


Scala 或 者 Java 书 写 程序 。 
1. 设 置 Setup 
首先 介绍 基本 的 配置 Spark Streaming 程 序 的 方法 ， 然 后 介绍 如 何 进 行 Twitter 流 身份 验证 令 牌 的 配置 。 


(1) 系统 设置 


读者 需要 在 官网 : https://github.com/amplab/training/tree/ampcamp4/streaming， 预 先 下 载 示例 程序 的 模板 。 在 用 户 的 集群 ， 假 设 下 


户 将 会 在 目录 下 发 现下 面 的 数据 项 。 


1) twitter.txt: 包含 Twitter 证 书 细节 的 文件 。 

2) 目录 介绍 

@Scala 用 户 : 

“scala/sbt: 包含 SBT 工 具 的 目录 。 

* scala/build.sbt: SBT 项 目 文件 。 

“scala/Tutorial.scala: 主 程序 ， 需 要 用 户 编辑 、 编 译 和 运行 。 


* scala/TutorialHelper.scala: 包含 一 些 帮 助 函 数 的 Scala 文 件 。 


@Java 


“ java/sbt: 包含 SBT 工 具 的 目录 。 

- java/build.sbt: SBT 项 目 文件 。 

: java/Tutorial.java: Java 主 程序 ， 需 要 用 户 编辑 、 编 译 和 运行 。 
- java/TutorialHelerjava: 包含 一 些 帮助 函数 的 Java 文 件 。 


* java/ScalaHelperjava: 包含 一 些 帮助 函数 的 Scala 文 件 。 


户 需要 编辑 、 编 译 和 运行 的 主 文件 是 Tutorial.scala 或 者 Tutorialjava。 注 意 : 需要 在 模板 文件 中 更 改 sparkUrl。 


import org.apache.spark. 
import org.apache.spark.SparkContext. | 
import org.apache.spark.streaming. 
import org.apache.spark.streaming.twitter. 
import org.apache.spark.streaming.StreamingContext. - 
import TutorialHelper. 
object Tutorial ( E 
def main (args: Array[String]) { 
/* Spark 的 目录 */ 
val sparkHome = "/root/spark" 
/* Spark 集 群 的 Master 节点 链接 */ 
val sparkUrl = "local[4]" 
/* 应 用 所 需 的 Jar 包 地 址 */ 
val jarFile = "target/scala-2.10/tutorial 2.10-0.1-SNAPSHOT.jar" 
/* 为 了 检查 点 而 配置 的 HDFS 目 录 */ 


x 


介绍 的 模板 和 程序 已 经 在 


录 /root/streaming/ 下 配置 ， 


val checkpointDir = TutorialHelper.getHdfsUrl () + 
/* 使 用 twitter.txt 配置 twitter 证 书 */ 
TutorialHelper.configureTwitterCredentials () 


/* 在 此 处 书写 用 户 代码 */ 


"/checkpoint/" 


为 了 方便 用 户 ， 例 子 中 增加 了 一 些 帮 助 函数 来 配置 需要 的 参数 。 


getSparkUrl () 是 一 个 帮助 函数 用 于 在 /root/spark-ec2/cluster-url 下 获取 Spark 集 群 的 URL。 


configureTwitterCredential () 是 一 个 帮助 函数 。 使 用 文件 file/root/streaming/twitter.txt 配 置 Twitter 证 书 。 这 个 配置 将 会 在 下 面 介绍 。 


(2) TwitterüE-Bi & 


由 于 所 有 的 例子 都 是 基于 Twitter 采样 tweet 流 。 首 先 需要 有 一 个 Twitter 账号 用 来 配置 OAuth 证 书 。 为 了 达到 这 个 目的 ， 用 户 需 要 使 用 Twitter 账号 来 设置 一 个 消费 者 的 key+ secret 对 和 访问 
token+secret 对 。 请 读者 按照 下 面 的 步骤 通过 Twitter 账号 设置 这 些 临 时 访问 关键 字 。 


1) 打开 链接 https://dev.twitter.com/apps。 用 户 页 面 罗列 了 基于 Twitter 的 应 用 、 应 用 的 消费 者 关键 字 和 访问 令 牌 。 如 果 没有 创建 任何 应 用 ， 则 这 个 页 面 是 空 的 。 在 这 个 教程 中 ， 用 户 可 以 创建 一 个 临 
时 的 应 用 。 单 击 蓝 色 的 “Create a new application” 按 钮 ， 出 现 一 个 新 应 用 的 页 面 ， 如 图 8-16 所 示 。 需 要 填 入 一 些 信息 : 因为 应 用 的 名 字 (Name) 必须 是 全 局 唯一 的 ， 所 以 可 以 使 用 Twitter 的 用 户 名 作 
为 前 级 。 描 述 (Description) 字段 可 以 随意 设置 。 网 址 (Website) 字段 可 以 任意 ， 但 是 需要 确保 是 一 个 有 http:// 前 缀 的 全 格式 的 URL。 单 击 Developer Rules of the Road 下 面 的 “Yes，1 agree" , & 


后 单 击 “Create your Twitter application” 按 钮 。 


2) 创建 应 用 程序 后 ， 将 会 看 到 一 个 和 图 8-17 相 似 的 确认 页 面 。 


用 户 可 以 获取 consumer key 和 consumer secret。 为 了 生成 访问 token 和 secret， 需 要 单 击 页 面 底部 的 蓝 色 “Create my access 


token” 按 钮 。 注 意 : 页 面 顶部 会 出 现 小 的 绿色 确认 信息 ， 说 明令 牌 已 经 生成 。 
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Home 一 My applications 


Create an application 


Application Details 


Callback URL: 


Developer Rules Of The Road 


3) 为 了 获取 证 书 需要 的 所 有 key 和 secret， 在 页 面 的 菜单 顶部 单 击 OAuth Tool， 将 会 看 到 如 图 8-18 所 示 的 页 面 。 


4) 更 新 twitter.txt 配 置 文件 。 


图 8-16 填写 应 用 信息 


cd /root/streaming/ 


vim twitter.txt 


用 户 会 看 到 下 面 的 模板 。 


consumerKey = 
consumerSecret = 
accessToken = 
accessTokenSecret = 


请 用 户 复制 之 网 页 上 相应 参数 值 到 这 个 配置 文件 对 应 位 置 ， 复 制 后 ， 会 出 现 类 似 下 面 的 配置 信息 。 
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tathadas-test 


Det aim Soung OANA hogl Gy where gomans Reset hoys Lene 


something something 
http //www.something com F 


Organization 

Information about the organization or company assocated with you application. This nformaton is optional 
Organization 

Organization website 


OAuth settings 


Your application's OAuth settings. Keep the "Consumer secret" a secret. This key shouid never be human-neadable in your application. 


Access level 


https://api.twitter.com/oauth/request token 

https: //api.twitter.com/oauth/authorize 
^coess token URL bttps://api.twitter.com/oauth/access token 
Callback URL None 


Sign ia with Twitter No 


Your access token 


It looks ike you havent authorized this your own Twitter account yet. For your convenience, we give you the opportunity 10 create your OAuth access 
token here, so you can stat signing fight waway. The access token generated w refiect your applicatior!s curent permission level. 


图 8-17 确认 页 面 
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Home 一 My applications 


tathadas-test 


Detals Settings OAuth tool 


OAuth Settings 


Consumer koy: * 


—--———— MÀ —À 


Consumer secret: * 
pA ———————" amd 


Perrermber fus should not be shared 


Access token: * 


p —L————ÀÁ— ÁA———— 


Access token secret: * 
-— ca-— —M— — Lu p 


Ramonda fs should not be shared 


图 8-18 OAuth Tool 5t £j 


consumerKey = z25xtÜ2zcaadfl2 http://www.hzcourse 


.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14947/OEBPS/Text/... 
consumerSecret = gqc9uAkjlal3 http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14947/OEBPS/Text/... 
accessToken = 8mitfTqDrgAzasd http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14947/OEBPS/Text/... 
accessTokenSecret = 479920148 http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14947/OEBPS/Text/... 


确认 无 误 后 ， 保 存 文件 ， 就 可 以 开发 Spark Streaming 程 序 了 。 


5) 如 果 做 完 练习 不 再 使 用 这 个 Twitter 应 用 ， 可 以 到 官网 的 页 面 单 击 Delete 按 钮 ， 将 应 用 删除 ， 如 图 8-19 所 示 。 
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Home 一 My appicatons 


tathadas-test 


Dotais Sottings OAuth tool GAnywhoro domains Rasot koys Doloto 


http://www.something com 4 


图 8-19 删除 应 用 页 面 


2. 书 写 第 一 个 Spark Streaming 程 序 
下 面 介绍 一 个 简单 的 Spark Streaming 应 用 程序 ， 它 会 每 秒 将 接收 到 的 推 文 打印 出 来 。 


1) 打开 并 编辑 Tutorial.scala 文 件 。 


cd /root/streaming/scala/ 
vim Tutorial.scala 


2) 创建 StreamingContext 对 象 。 这 个 对 象 是 Spark Streaming 程 序 的 入 口 。 


val ssc = new StreamingContext (sparkUrl, "Tutorial", Seconds (1), sparkHome, Seq (jarFile) ) 


在 本 例 中 ， 创 建 了 一 个 StreamingContext 对 象 ， 并 传 入 Spark 集 群 的 URL (sparkUrl) 、 流 数据 的 批 处 理 (batch) 持续 时 间 (Seconds (1) ) 、Spark 的 根 目录 (sparkHome) 程序 运行 需要 的 jar 包 
jarFile) 和 应 用 程序 名 (Tutorial) 。 


val tweets = TwitterUtils.createStream (ssc, None) 


3) 使 用 StreamingContext 对 象 创建 tweet 数 据 流 。 


tweets 对 象 是 一 个 DStream 对 象 ， 是 一 个 源源 不 断 的 RDD 流 ，RDD 中 的 数据 项 就 是 twitter4j.Status 对 象 。 用 户 可 以 通过 下 | 


的 语句 打印 出 现在 的 数据 流 一 探究 竟 。 


Ej 


val statuses = tweets.map (status => status.getText () ) 
statuses.print () 


类 似 本 书 前 几 章 提 到 的 RDD 变 换 (transformation) ，tweets 上 的 map 算 子 作 用 在 tweets 对 象 上 又 创建 了 一 个 新 的 Dstream， 叫 作 status。print 函 数 打印 Dstream 中 每 个 RDD 的 前 10 条 数据 。 


如 果 需 要 容错 ， 可 以 调用 Checkpoint 方 法 ， 输 入 参数 为 HDFS 的 文件 路 径 ， 将 数据 元 余 存 储 在 HDFS 中 。 


ssc.checkpoint (checkpointDir) 


4) 通过 下 面 两 个 方法 触发 整个 程序 的 运行 。 


ssc.start () 
ssc.awaitTermination () 


注意 : 上 面 的 两 个 参数 应 该 在 用 户 做 完 所 有 操作 之 后 再 触发 。 


5) 编辑 好 后 保存 Tutorial.scala 文 件 ， 在 根 目录 运行 下 面 的 命令 。 


Sbt/sbt package run 


这 个 命令 将 会 自动 编译 Tutorial 类 ， 并 在 /root/streaming/[languagej/target/scala-2.10/. 目 录 下 创建 jar 包 。 最 后 运行 这 个 程序 ， 如 果 运 行 成 功 ， 将 会 在 控制 台 看 到 类 似 下 面 的 日 志 信息 。 


RT Qdragon itou:  ?RT???222?230002?????222???222????222????22????222???102?????? 

?2??????2?2?2?2??2?3???9???? $???? http: //t.co/PwyA5dsI ? h http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14947/OEBPS/Text/... 
Sini aku antar ke RSJ ya "GNiieSiiRenii: Memang (?? ?'? ) "GRiskiMaris: Stresss"GNiieSiiRenii: Sukasuka aku donk: p"GRiskiMaris: Makanya jgn" 

Gbrennn star lol I would love to come back, you seem pretty cool! I just dont know if I could ever do graveyard again : ( It KILLs me 


RT @BrunoMars: Wooh! 

Lo malo es qe no tiene toallitas 

Sayang beb RT Genjaaangg Piye ya perasaanmu nyg aku : o 

Baz? ?eyler yar??ma ya da reklam konusu olmamal? d???ncesini yenemiyorum. 


Ganisyifaa haha. Cukupla merepek sikit2 : 3 


[1] 示例 参考 http://ampcamp.betrkeley.edu/big-data-mini-courseVrealtime-processing-with-spatk-streaminghtml。 


8.3 GraphX 


Graphx 是 Spark 中 的 一 个 重要 子 项 目 ， 它 利用 Spark 为 计算 引擎 ， 实 现 了 大 规模 图 计算 的 功能 ， 并 提供 了 类 似 Pregel 的 编程 接口 。GraphX 的 出 现 ， 使 Spark 生 态 系统 更 加 完善 和 丰富 ， 同 时 其 与 Spark 
生态 系统 其 他 组 件 很 好 的 融合 ， 以 及 强大 的 图 数据 处 理 能 力 ， 使 其 在 工业 界 得 到 了 广泛 的 应 用 。 本 章 主 要 介绍 GraphX 的 架构 、 原 理 和 使 用 方式 。 


8.3.3 GraphX 简 介 


GraphX 是 常用 图 算法 在 Spark 上 的 并 行 化 实现 ， 提 供 了 丰富 的 AP 接口 。 图 算法 是 很 多 复杂 机 器 学 习 算 法 的 基础 ， 在 单机 环境 下 有 很 多 应 用 案例 。 在 大 数据 环境 下 ， 图 的 规模 大 到 一 定 程度 后 ， 单 机 很 
难 解决 大 规模 的 图 计算 ， 需 要 将 算法 并 行 化 ， 在 分 布 式 集群 上 进行 大 规模 图 处 理 。 目 前 ， 比 较 成 熟 的 方案 有 GraphX 和 GraphLab 等 大 规模 图 计算 框架 。 图 8-20 为 GraphX 发 展 史 简 图 。 


[ 


GraphX 发 展 团 史 


0.8 | 0.9 
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GraphX-Branch GraphX-Alpha 


图 8-20  GraphX AUR X 


GraphX 的 特点 是 离线 计算 、 批 量 处 理 、 基 于 同步 的 整体 同步 并 行 计算 模型 ( 即 BSP 计 算 模型 ) , GAFARA FTE ERA EANA, (BisduirpEEE ERAS. EIBUAGABSEIREERNE 
架 还 有 基于 MPI 模 型 的 异步 图 计算 模型 GraphLab 和 同样 基于 BSP 模 型 的 Giraph 等 。 


现在 和 GraphX 可 以 组 合 使 用 的 分 布 式 图 数据 库 是 Neo4J 和 Titan。Neo4j 一 个 高 性 能 的 、 非 关系 的 、 具 有 完全 事务 特性 的 、 鲁 棒 的 图 数据 库 。Titan 是 一 个 分 布 式 的 图 形 数据 库 ， 特 别 为 存储 和 处 理 大 规 
模 图 形 而 优 化 。 二 者 均 可 作为 GraphX 的 持久 化 层 ， 存 储 大 规模 图 数据 。 


8.3.2 ”GraphX 的 使 用 


类 似 Spark 在 RDD 上 提供 了 一 组 基本 操作 符 (如 map、filter、reduce) ，GraphX 同 样 也 有 针对 Graph 的 基本 操作 符 ， 用 户 可 以 在 这 些 操作 符 传 入 自 定义 函数 和 通过 修改 图 的 节点 属性 或 结构 生成 新 的 


GraphX 提 供 了 丰富 的 针对 图 数据 的 操作 符 。Graph 类 中 定义 了 核心 的 、 优 化 过 的 操作 符 。 一 些 更 加 方便 的 由 底层 核心 操作 符 组 合 而 成 的 上 层 操作 符 在 GraphOps 中 定义 。 正 是 通过 Scala 语 言 的 implicit 
关键 字 ，GraphOps 中 定义 的 操作 符 可 以 作为 Graph 中 的 成 员 。 这 样 做 的 目的 是 未 来 GrpahX 会 支持 不 同类 型 的 图 ， 而 每 种 类 型 图 的 呈现 必须 实现 核心 的 操作 符 和 复 用 大 部 分 GrpahOps 中 实现 的 操作 符 。 


D 


下 面 将 操作 符 分 为 几 个 类 别 进 行 介绍 。 


.属性 操作 符 


属性 操作 符 如 表 8-1 所 示 。 
表 8-1 属性 操作 符 
属性 操作 符 说 明 
mapVertices[ VD2](map: (VertexId, VD) => VD2): 
Graph [VD2. ED] 


使 用 map 函数 对 图 中 所 有 项 点 进行 转换 操作 


mapEdges[ED2](map: Edge[ED] 


使 用 map 函数 对 图 中 所 有 边 属 性 进行 转换 操作 
=> ED2): Graph[VD, ED2] ' ias. | . 


mapTriplets[ED2](map: EdgeTriplet[VD, ED] => ED2): 
Graph[VD. ED2] 


可 以 对 边 中 的 顶点 属性 或 者 边 属 性 进行 map RRC MIRE 


2. 结 构 操 作 符 
结构 操作 符 如 表 8-2 所 示 。 
表 8-2 ”结构 操作 符 
结构 操作 符 说 明 
reverse: Graph[VD, ED] 反 转 图 中 所 有 边 的 方向 
subgraph(epred:EdgeTriplet[VD,ED]=>Boolean,vpred:(Vertex 
Id. VD)--Boolean):Graph[VD.ED] 


获取 图 中 顶点 和 边 满足 函数 条 件 的 子 图 


将 本 图 中 所 有 包含 在 other 图 中 的 顶点 和 边 保 留 ， 顶 


mask[VD2,ED2](other:Graph[VD2.ED2]): Graph[VD.ED] | ,. 和 边 的 属性 不 变 
FATH HJ JBS TEASE 


groupEdges(merge:(ED,ED)--ED):Graph[VD.ED] 将 两 个 顶点 间 的 多 条 边 合 并 为 一 条 边 


3. 图 信息 属性 


司 信息 属性 如 表 8-3 所 示 。 


表 8-3 图 信息 属性 


图 信息 属性 说 明 
val numEdges: Long | 图 中 边 的 数量 
val numVertices: Long 图 中 顶点 的 数量 
val inDegrees: VertexRDD[Int] inDegrees; 图 中 入 度数 量 
val outDegrees: VertexRDD[Int] outDegrees: 图 中 出 度数 量 
val degrees: VertexRDD[Int] degrees: 图 中 度 的 总 数量 
.邻接 聚集 操作 符 与 Join 操 作 符 


邻接 聚集 操作 符 与 Join 操 作 符 如 表 8-4 所 示 。 


表 8-4 邻接 聚集 操作 符 与 Join 操 作 符 


邻接 聚集 操作 符 与 Join 操作 符 说 明 
国 数 的 作用 是 对 每 个 顶点 进行 聚集 操作 
函数 中 的 map 函数 将 三 元 组 数据 映射 为 目的 节点 为 Key 


mapReduceTrplets[A | map:EdgeTriplet[ VD,ED]--Iterator 


成 人 度数 ， 作 为 新 图 的 项 点 属性 
[(VertexId.A)l].reduce:(A, A) => A): VertexRDD[A] 


val rawGraph: Graph[0.0] = Graph.textFile( "twittergraph" ) 
val inDeg: RDD[(VertexId, Int)] = 
mapReduceTriplets[Int](et => Iterator((et.dstid. 1)). -— ) 
joinVertices[U](table: RDD[(VertexId,U)])(map: (VertexId, | 将 图 中 顶点 和 另 一 个 RDD 连接 (其 VertexId 为 key), 
VD, — VD:Graph[ VD, ED] 并 将 连接 后 的 数据 项 进行 map 函数 运算 
类 似 上 面 的 joinVertices， 但 是 输入 的 table RDD 应 该 保 
证 有 对 应 graph 的 所 有 VertexId， 如 果 没 有 ， 则 map 函数 
的 输入 为 None 


outerJoinVertices[U,VD2](table: RDD [(VertexId,U)])(map: 
(VertexId, VD, Option[U]) => VD2): Graph[VD2, ED] 


5. 缓 存 操作 符 
缓存 操作 符 如 表 8-5 所 示 。 


表 8-5 ”缓存 操作 符 


缓存 操作 符 说 明 
def cache(): Graph[VD, ED] ZEE HP a TLS ANH 


Def persist(newLevel: 


用 户 可 以 指定 存储 级 别 来 缓存 图 的 顶点 和 边 
StorageLevel=StorageLevel.MEMORY ONLY): Graph [VD, ED] EERI Hr 


def unpersistVertices(blocking: Boolean = true): Graph[VD. ED] 不 再 缓存 顶点 ， 但 保留 边 数 据 


6.Pregel API 


Pregel 基 于 BSP 模型 ， 提 供 了 3 个 重要 的 需要 用 户 书写 的 函数 。 通 过 官方 PageRank 算 法 进一步 理解 这 3 个 函数 的 使 用 。 


def run[VD: ClassTag, ED: ClassTag] ( 
graph: Graph[VD, ED], numIter: Int, resetProb: Double = 0.15): Graph[Double， Double] = 


val pagerankGraph: Graph[Double, Double] = graph 
/* 将 节点 的 度 与 图 中 节点 关联 */ 
.outerJoinVertices (graph.outDegrees) { 
(vid, vdata, deg) => deg.getOrElse (0) 


l 
/* 根据 度 设 置 边 的 权重 */ 
.mapTriplets (e => 1.0 / e.srcAttr) 
/* 设置 节点 属性 为 PageRank 算 法 初始 值 */ 
.mapVertices ( (id, attr) => 1.0) 
def vertexProgram (id: VertexId， attr: Double, msgSum: Double) : Double = 
resetProb + (1.0 - resetProb) * msgSum 
def sendMessage (id: VertexId, edge: EdgeTriplet[Double, Double]): Iterator [ (VertexId, Double) ] = 
Iterator ( (edge.dstId, edge.srcAttr * edge.attr) ) 
def messageCombiner (a: Double, b: Double): Double = a + b 
val initialMessage = 0.0 
/* 以 固定 迭代 次 数 执行 Pregel*/ 
Pregel (pagerankGraph, initialMessage, numIter) ( 
vertexProgram, sendMessage, messageCombiner) 
} 


这 3 个 函数 按 顺 序 执行 完 一 次 是 一 个 迭代 轮 次 ，numlter 决 定 需要 执行 多 少 伦 次 完成 迭代 。 


但 初始 由 于 vprog 函 数 是 没有 输入 的 ， 所 以 还 需要 用 户 输入 initialMessage 作 为 第 一 轮 的 初始 化 数据 。 


下 面 通过 表 8-6 介 绍 Pregel API, 


表 8-6 Pregel API 


Pregel API 


说 明 


vprog: (VertexId, VD, A) => VD 


对 应 例子 中 : 

def vertexProgram(id: VertexId, attr: Double, msgSum: 
Double): Double = resetProb + (1.0 - resetProb) * msgSum 

如 果 上 一 轮 次 的 mergeMsg 已 经 计算 完成 (如 果 是 第 一 
次 ， 则 是 initialMessage 的 结果 )， 则 通过 函数 输入 可 以 获 
取 上 一 轮 次 对 这 个 顶点 的 聚合 结果 msgSum， 然 后 利用 这 
个 值 对 顶点 赋予 新 的 属性 ( resetProb + (1.0 - resetProb) * 
msgSum) reseProb 是 随机 游 走 概率 值 


sendMsg: EdgeTriplet[VD. ED] => Iterator[(VertexId, A)] 


Pregel API 


mergeMsg: (A, A) => A 


8.3.3 ”GraphX 架 构 


1 .整体 架构 


GraphX 的 整体 架构 可 以 分 为 以 下 3 部 分 ， 如 图 8-21 所 示 。 


对 应 例子 中 : 

def sendMessage(id: VertexId, edge: EdgeTriplet[Double, 
Double]) : Iterator[(VertexId, Double)] = Iterator((edge.dstId, 
edge.srcAttr * edge.attr)) 


EPOD 


在 机 器 


Me 
Nx 


说 明 
对 应 例子 中 : def messageCombiner(a: Double, b: Double): 
Double =a + b 
如 果 上 一 步 的 pair CARNA TL e rt RS Bla, WKT 


收 到 的 其 他 顶点 传 给 自己 的 所 有 数据 (形式 为 : (顶点 id, 


NS 


value) )， 通 过 用 户 定 义 的 mergeMsg 函数 聚合 运算 


- Connected 


PartitionStrategy 


VertexRDD 


GraphImpl 


图 8-21 GraphX 架 构 


1) 存储 和 原 语 层 : Graph 类 是 图 计算 的 核心 类 ， 内 部 含有 VertexRDD、EdgeRDD 和 RDDI[EdgeTriplet] 引 用 。Graphlmp| 是 Graph 类 的 子 类 ， 实 现 了 图 操作 。 


2) 接口 层 : 在 底层 RDD 的 基础 之 上 实现 了 Pregel 模 型 、BSP 模 式 的 计算 接口 。 


3) 算法 层 : 基于 Pregel 接 口 实 现 了 常用 的 图 算法 。 包 括 : PageRank、SVDPlusPlus、TriangleCount、ConnectedComponents、StronglyConnectedConponents 等 算法 。 


2. 存 储 结构 


在 正式 的 工业 级 应 用 中 ， 图 的 规模 极 大 ， 上 百 万 个 节点 经 常 出 现 。 为 了 提高 处 理 速 度 和 数据 量 ， 希 望 能 够 将 图 以 分 布 式 的 方式 来 存储 、 处 理 图 数据 。 图 的 分 布 式 存储 大 致 有 两 种 方式 : 边 分 割 (edge 
cut) 和 点 分 割 (vertex cut) ， 如 图 8-22 所 示 。 最 早期 的 图 计算 的 框架 中 ， 使 用 的 是 边 分 割 存 储 方式 ， 而 GraphX 的 设计 者 考虑 到 真实 世界 中 的 大 规模 图 典型 地 是 边 多 于 点 的 图 ， 所 以 采用 点 分 割 方式 存 
储 。 点 分 割 能 够 减少 网 络 传输 和 存储 开销 。 底 层 实 现 是 将 边 放 到 各 个 节点 存储 ， 而 在 数据 交换 时 ， 将 点 在 各 个 机 器 之 间 广 播 进行 传输 。 对 边 进行 分 区 和 存储 的 算法 主要 基于 Partition Strategy 中 封装 的 分 区 
方法 。 其 中 的 几 种 分 区 方法 分 别 是 对 不 同 应 用 情景 的 权衡 ， 可 以 根据 具体 的 需求 ， 在 程序 中 指定 边 的 分 区 方式 。 例 如 : 


网 


val g = Graph (vertices, partitionBy ( 
edges, PartitionStrategy.EdgePartition2D) ) 


(RDD) 


图 顶点 表 


\ 局 发 式 工 程 顶点 切 分 


图 8-22 ”GraphX 存 储 模型 


一 旦 边 已 经 在 集群 上 分 区 和 存储 ， 大 规模 并 行 图 计算 的 关键 挑战 就 变 成 了 如 何 将 点 的 属性 连接 到 边 。GraphX 的 处 理 方式 是 在 集群 上 移动 传播 点 的 属性 数据 。 由 于 不 是 每 个 分 区 都 需要 所 有 点 的 属性 ( 因 
为 每 个 分 区 只 是 一 部 分 边 ) ，GraphX 内 部 维持 一 个 路 由 表 (routing table) ， 这 样 当 需 要 广播 点 到 需要 这 个 点 的 边 的 所 在 分 区 时 ， 就 可 以 通过 路 由 表 映 射 ， 将 需要 的 点 属性 传输 到 指定 的 边 分 区 。 


x] 


点 分 割 的 好 处 是 在 边 的 存储 上 没有 宛 余数 据 ， 而 且 对 于 某 个 点 与 其 邻居 的 交互 操作 ， 只 要 满足 交换 律 和 结合 律 即 可 。 例 如 ， 求 项 点 的 邻接 顶点 权重 的 和 ， 可 以 在 不 同 的 节点 进行 并 行 运算 ， 最 后 汇总 每 
个 节点 的 运行 结果 ， 网 络 开销 较 小 。 代 价 是 每 个 顶点 属性 可 能 要 宛 余 存 储 多 份 ， 需 要 更 新 点 数据 时 ， 要 有 数据 同步 开销 。 


3. 使 用 技巧 


采样 观察 可 以 通过 不 同 的 采样 比例 ， 先 从 小 数据 量 进行 计算 ， 观 察 效 果 ， 调 整 参数 ， 再 逐步 增加 数据 量 进行 大 规模 的 运算 。 可 以 通过 RDD 的 sample 方 法 采样 ， 通 过 Web UI 观察 集群 的 资源 消耗 。 


1) 内 存 释放 : 保留 旧 图 对 象 的 引用 ， 并 尽快 释放 不 使 用 的 图 的 顶点 属性 ， 节 省 空间 占用 。 通 过 方法 unPersistVertices 释 放 顶 点 。 


2) GC 调 优 ， 请 参考 性 能 调 优 章节 的 内 容 。 


3) 调试 : 在 各 个 时 间 点 可 以 通过 graph.vertices.count () 进行 调试 ， 观 测 图 现 有 状态 ， 进 行 问题 诊断 和 调 优 。 


834 运行 实例 


上 文 介绍 了 GraphX 的 组 件 和 API。 下 面 通过 Berkeley 的 示例 构建 一 个 真实 的 图 数据 分 析 流 水 线 。 站 示例 中 将 会 使 用 Wikipedia 的 连接 数据 ， 使 用 Spark 的 操作 符 清洗 数据 和 抽取 结构 ， 使 用 GraphX 操 作 
符 分 析 图 结构 ， 最 后 检验 和 评价 图 分 析 的 结果 。 上 面 的 操作 可 以 通过 Spark Shell 执 行 。 


GraphX 为 了 达到 最 佳 的 性 能 表现 需要 使 用 Kyro 序 列 化 器 。 用 户 可 以 通过 Spark 的 Web UI 确认 使 用 了 哪 种 序列 化 器 。 在 浏览 器 中 输入 链接 ( 见 图 8-23) : http://<MASTER_URL> : 
4040/environment/， 检 查 spark.serializer 属 性 : 


在 默认 情况 下 ，Spark 没 有 使 用 Kyro 序 列 化 器 。 在 实战 中 ， 用 户 可 以 首先 退出 Spark Shell. 


编译 配置 文件 /root/spark/conf/spark-env.sh， 在 文件 中 加 入 下 面 的 内 容 。 


SPARK JAVA OPTS4-' 
-Dspark.serializer-org.apache.spark.serializer.KryoSerializer 
-Dspark.kryo.registrator-org.apache.spark.graphx.GraphKryoRegistrator 'export SPARK JAVA OPTS 


也 可 以 使 用 下 面 的 命令 在 命令 行 配置 文件 。 


echo -e "SPARK JAVA OPTS4-' -Dspark.serializer-org.apache.spark.serializer.KryoSerializer -Dspark.kryo.registrator-org.apache.spark.graphx.GraphKryoRegistrator ' \nexport SPARK 


如 果 用 户 在 ec2 的 环境 下 ， 则 运行 下 面 的 命令 将 配置 文件 更 新 到 集群 中 的 所 有 机 器 中 。 


/root/spark-ec2/copy-dir.sh /root/spark/conf 


Spark shell - Environment 
65 ec2-23-22-108-176.compute-1.amazonaws. com:4040 envi 


Spa Stages Storage Environment Executors 


Spark shell application UI 


Environment 


Runtime Information 
Value 
AuSmiibyivnyjava-1.7.0-openjdk-1.7.0.51,.x86_64/jre 
1.7.0 51 (Oracle Corporation) 
Scala Home 
Scala Version 


Spark Properties 


Name 
spark.app.name 
spark driver.host 
spark. driver.port 
spark executor.uri 


spark.fileserver.uri 
spark.home 
spark.httpBroadcast.uri 
spark.jars 
spark.kryo.registrator 
spark.local.dir 
spark.master 


Value 

Spark shell 
ip-10-191-179-178.ec2 internal 
35500 


hdfs://ec2-23-22-108-176.compute- 
1.amazonaws.com:9000/spark.tar.gz 


http://10.191.179.178:39429 
/root/spark 
http://10.191.179.178:47225 


org.apache.spark.graphx.Graph KryoRegtistrator 
/mnt/spark,/mnt2/spark,/mnt3/spark,/mnt4/spari« 


sparkc//ec2-23-22-10B8-176.compute-1.amazonaws.com:7077 


图 8-23 ”Spark 配 置 监测 UI 


如 果 用 户 是 在 其 他 环境 下 ， 则 可 以 使 用 pssh 等 集群 分 发 工具 将 /conf 文 件 同步 到 所 有 机 器 中 。 例 如 ， 在 pssh 环 境 下 : 


./pscp -h hosts.txt -r X /root/spark/conf /root/spark/conf 


最 终 通过 下 面 的 命令 重启 整个 集群 。 


/root/spark/sbin/stop-all.sh 
sleep 3/root/spark/sbin/start-all.sh 


在 启动 Spark Shell 之 后 ， 查 看 http://<MASTER_URL>:4040/environment/ 中 的 spark.serializer 属 性 。 


如 果 配 置 成 功 ， 则 显示 已 经 配置 为 org.apache.spark.serializer.KryoSerializer. 


下 面 开 始 应 用 开发 流程 。 


(1) 开始 


启动 Spark Shell。 


/root/spark/bin/spark-shell 


下 面 的 命令 都 是 在 spark-shell 中 输入 的 ， 引 入 需要 的 标准 包 。 


import org.apache.spark.graphx._ 
import org.apache.spark.rdd.RDD 


(2) 加 载 Wikipedia 数 据 


加 载 原生 数据 进入 Spark。 假 定 读者 已 经 将 Wikipedia 的 数据 加 载 进 HDFS。 下 面 将 HDFS 的 数据 加 载 进 RDD。 


将 数据 直接 加 载 至 内 存 ， 这 样 可 以 减少 重复 的 磁盘 IO 开销 。 调 用 coalesce 函 数 将 分 区 紧缩 至 20 个 分 区 ， 以 减少 过 量 的 通信 开销 。 


val wiki: RDD[String] = sc.textFile ("/wiki links/part*") .coalesce (20) 


查看 第 一 个 数据 项 : 可 以 通过 RDD 中 的 first 方 法 呈现 第 一 篇 文章 。 


wiki.first 
/* res0: String = AccessibleComputing [[Computer accessibility]]*/ 


(3) 数据 清洗 


清洗 数据 和 抽取 图 结构 。 在 这 个 例子 中 ， 将 会 抽取 连接 图 ， 也 可 以 在 其 他 数据 集 迁 移 示例 (如 文档 中 的 关键 词 图 、 贡 献 者 图 等 ) 。 在 已 经 采样 的 数据 中 ， 可 以 观察 到 一 些 数据 中 蕴含 的 结构 。 每 一 行 的 
第 一 个 词 是 文章 的 名 称 ， 其 余 字符 串 包含 这 个 文章 中 的 链接 。 


使 用 已 经 观察 到 的 结构 进行 数据 清理 。 


/* 定 义 Article 类 */ 

case class Article (val title: String, val body: String) 

/* 根 据 分 隔 符 \t 分 隔 文章 */ 

val articles = wiki.map ( .split ('\t') D . 
/* 过 滤 字 符 串 ， 保 留 字符 串 长 度 大 于 1， 且 第 二 个 字符 串 中 包含 REDIRECT 关 键 字 的 元 组 */ 
filter (line => (line.length > 1 && ! (line (1) contains "REDIRECT") ) ) . 
/* 将 结果 存储 到 对 象 中 ， 便 于 后 续 访问 */ 
map (line => new Article (line (0) .trim, line (1) .trim) ) .cache 

程序 可 以 通过 count 函 数 查看 清洗 后 文章 的 剩余 数量 。 


articles.count 


(4) 创建 一 个 顶点 RDD 


此 时 ， 数 据 已 经 清洗 ， 可 以 创建 项 点 RDD。 由 于 之 前 的 目的 是 从 数据 中 抽取 链接 图 ， 所 以 顶点 的 一 个 自然 属性 就 是 文章 的 标题 。 之 后 仍 需要 将 文章 标题 哈 希 映射 为 顶点 ID。 


// 将 文章 标题 转换 为 ID 的 哈 希 函数 
def pageHash (title: String): VertexId = ( 
title.toLowerCase.replace (" ", "") .hashCode.toLong 


t 
// 数据 项 为 TD 和 文章 标题 的 顶点 RDD 


/* val vertices: RDD[ (VertexId, String) ] = /* implement */*/ 
/* 创 建 顶点 RDD*/ 
val vertices = articles.map (a => (pageHash (a.title) ， a.title) ) .cache 


/* 通 过 Action 算 子 count 强 制 触 发 RDD 的 执行 */ 


vertices.count 


(5) 创建 边 RDD 


可 以 通过 正则 表达 式 抽取 [由 中 的 内 容 。 通 过 上 面 的 方法 抽取 所 有 的 文章 中 包含 


数据 清洗 的 下 一 步 是 抽取 边 ， 进 而 构建 连接 图 的 结构 。MeidaWiki 语 法 中 是 以 格式 “[[ 链 接 到 的 文章 ].” 存 储 数 据 
的 链接 ， 返 回 包含 在 文章 中 的 所 有 链接 。 


读者 可 以 将 下 面 的 代码 拷贝 到 Spark shell 中 执行 。 


val pattern = "NN[NN[.9? NNJNVI". x 
val edges: RDD[Edge[Double]] = articles.flatMap ( a => 
val srcVid = pageHash (a.title) 
pattern.findAllIn (a.body) .map { link => 
val dstVid = pageHash (link.replace ("[[", "") .replace ("]]", "")) 
Edge (srcVid, dstVid, 1.0) 
$ 
H 


T 


o 


这 段 代 码 抽取 每 个 页 面 的 所 有 导出 链接 ， 然 后 给 边 RDD 的 每 个 边 分 配 一 个 统一 的 权 和 


(6) EE 


之 前 的 准备 工作 完成 后 ， 就 可 以 开始 创建 图 了 。 之 前 的 准备 工作 是 使 用 Spark 的 核心 代码 以 关系 表 的 视角 创建 数据 。 使 用 之 前 的 顶点 RDD、 边 RDD 和 默认 的 顶点 属性 创建 图 。 默 认 的 顶点 属性 是 为 了 初 


始 化 那些 现在 还 未 在 顶点 RDD 中 的 顶点 。 但 是 Wikipedia 数 据 中 经 常 有 链接 指向 不 存在 的 页 面 。 在 本 例 中 将 会 使 用 一 个 空 的 文章 标题 字符 串 作 为 默认 的 顶点 属性 代表 一 个 损坏 的 链接 。 注 意 : 之 所 以 进行 这 
样 的 考虑 ， 是 因为 在 真实 的 数据 中 可 能 有 脏 数据 。 


val graph = Graph (vertices. edges, "") .subgraph (vpred = { (v, d) => d.nonEmpty)) .cache 


通过 Action 算 子 count 强 制 计算 图 的 一 些 属性 (这 大 约会 耗费 2 分 钟 ) 。 


graph.vertices.count 


在 第 一 次 创建 图 时 ，GraphX 针 对 所 有 图 中 的 顶点 创建 索引 ， 发 现 并 重新 分 配 丢 失 的 顶点 。 由 于 创建 了 索引 ， 所 以 会 更 快 地 计算 图 中 的 三 元 组 。 


graph.triplets.count 


(7) 在 Wikipedia 数 据 集 上 运行 PageRank 算 法 


到 此 为 止 ， 用 户 可 以 进行 一 些 实际 的 图 分 析 操 作 了 。 在 这 个 例子 中 ， 将 会 运行 PageRank 计 算 图 中 最 重要 的 页 面 。 


首先 需要 进行 一 些 初始 化 工作 。 


val prGraph-graph.staticPageRank (5) .cache 


Graph.staticPageRank 方 法 返回 的 顶点 属性 是 每 个 页 面 PageRank 值 的 图 。 这 里 读者 可 能 会 怀疑 ， 新 的 图 属性 包含 的 是 PageRank 值 ， 不 再 包含 原始 的 顶点 属性 文章 标题 了 。 其 实 之 前 的 包含 文章 标题 
顶点 属性 的 prGraph 仍 然 存在 ， 可 以 将 两 个 图 Join， 这 样 就 会 返回 一 个 包含 两 类 信息 的 一 个 新 图 ， 两 个 图 的 所 有 顶点 属性 将 以 元 组 的 形式 存储 作为 一 个 新 顶点 属性 。 之 后 在 这 个 新 的 顶点 序列 中 还 可 以 进行 
更 深入 的 基于 表 的 操作 ， 如 找到 最 重要 的 10 个 顶点 (也 就 是 PageRank 值 最 高 的 10 个 顶点 ) ， 并 打印 出 它们 的 标题 。 将 这 些 操作 融合 在 一 起 就 实现 了 在 WiKi 文 章 图 中 找到 最 重要 的 10 个 文章 标题 的 功能 。 


val titleAndPrGraph = graph.outerJoinVertices (prGraph.vertices) 
{ (v, title, rank) => (rank.getOrElse (0.0), title) 


} 
titleAndPrGraph.vertices.top (10) { 

Ordering.by ( (entry: (VertexId, (Double, String) ) ) => entry. 2. 1) 
).foreach (t => println (t. 2. 2 +": "+t. 2. D 


最 后 ， 可 以 通过 下 面 的 例子 ， 在 提 到 “Berkeley” 的 文章 所 构成 的 图 中 ， 找 到 最 重要 的 页 面 。 


val berkeleyGraph = graph.subgraph (vpred = (v, t) => t.toLowerCase contains "berkeley") 
val prBerkeley = berkeleyGraph.staticPageRank (5) .cache 
berkeleyGraph.outerJoinVertices (prBerkeley.vertices) { 
(v, title r) => (r.getOrElse (0.0), title) 
J.vertices.top (10) { 
Ordering.by ( (entry: (VertexId, (Double, String) ) ) => entry. 2. 1) 
).foreach (t => println (t. 2. 2 +"; " * t. 2. 12) uds 


读者 可 以 以 上 面 的 方式 在 GraphX 平 台 进 行 更 加 深入 的 数据 分 析 。 


[1] 示例 参考 : http://ampcamp.berkeley.edu/big-data-mini-course/graph-analytics-with-graphx.html 


84 MLlib 


MLIib 是 构建 在 Spark 上 的 分 布 式 机 器 学 习 库 ， 充 分 利用 了 Spark 的 内 存 计算 和 适合 迭代 型 计算 的 优势 ， 使 性 能 大 幅度 提升 ， 同 时 Spark 算 子 丰富 的 表现 力 ， 让 大 规模 机 器 学 习 的 算法 开发 不 再 复杂 。 在 
正式 介绍 ML1ib 之 前 ， 先 介绍 一 个 拓展 知识 一 一 数据 挖 气 组 件 化 思想 。 


知识 拓展 : 数据 挖 握 组 件 化 思想 

针对 不 同 的 数据 挖 据 任 务 ， 研 究 人 员 设 计 了 各 种 各 样 的 数据 挖 据 算法 。 与 此 同时 ， 每 年 仍 有 大 量 新 的 数据 挖 据 算法 产生 。 对 于 数据 挖 据 初 学 者 来 说 ， 弄 清算 法 之 间 的 联系 和 区 别 很 困难 。 可 以 通过 数据 
挖掘 组 件 化 思想 《Hand etal，2001) 来 拆 分 和 理解 数据 挖 据 算法 ， 理 清 其 中 的 脉络 。 问 题 可 拆 解 ， 意 味 着 问题 组 件 解 耦 ， 每 个 组 件 都 可 以 重新 设计 组 合 ， 从 而 衍生 出 多 种 多 样 的 新 算法 。 该 思想 认为 ， 许 多 
数据 挖 据 算法 由 5 个 “标准 组 件 ” 构 成 ， 即 模型 模式 、 模 数据 挖 据 任务 、 数 据 挖 据 任务 、 评 分 函数 、 搜 索 和 优化 方法 、 数 据 管理 策略 。 每 一 种 组 件 都 含有 一 些 通用 的 方法 或 者 模型 。 例 如 ， 模 型 模式 中 包括 马 
尔 科 夫 链 、 贝 叶 斯 网 络 、 神 经 网 络 等 。 理 解 了 每 一 个 组 件 的 基本 原理 ， 再 来 理解 多 个 组 件 组 合 起 来 的 算法 会 更 加 容易 ， 而 且 不 同 算法 之 间 进 行 比较 能 更 加 容易 地 看 出 异同 。 下 面 介绍 这 5 个 组 件 。 

1. 模 型 或 者 模式 结构 

训练 数据 相当 于 数据 挖 气 算法 的 输入 ， 而 模型 《model) RARR (pattern) 结构 相当 于 数据 挖 据 算法 的 输出 ， 如 决策 树 模型 、 频 繁 序列 模式 。 

模型 是 对 数据 集合 全 局 整体 的 描述 ， 模 式 是 对 数据 集合 局 部 集合 的 描述 。 模 型 与 模式 也 是 联系 的 。 例 如 ， 聚 类 算法 用 于 异常 点 检测 的 原理 就 是 异常 点 监测 的 局 部 模式 只 有 和 全 局 的 正常 模型 比较 ， 才 能 
暴露 出 异常 。 模 型 和 模式 都 含有 参数 ， 例 如 ，Y=aX? 十 bX 十 c 参 数 是 、b、c， 模 式 X>d、Y<e 的 概率 为 p 的 参数 为 4、e、p。 把 参数 不 确定 的 模式 (如 d、e、p 取 不 同 的 值 ) 叫 模式 的 结构 。 当 参数 确定 ， 就 说 
明 这 个 模型 或 者 模式 已 经 拟 合 。 结 构 的 参数 不 确定 ， 是 一 般 形 式 ， 拟 合 的 模型 模式 是 具有 了 特定 参数 值 的 特殊 形式 。 


2 .数据 挖掘 任务 


根据 对 全 局 集合 的 描述 状况 可 以 将 数据 挖 据 任 务 分 为 模式 挖 据 、 回 归 分 类 、 描 述 建 


SE 


(0) 模式 挖掘 


模式 是 对 菜 个 数据 集中 部 分 结构 的 描述 ， 可 以 是 一 个 子 集合 、 一 个 子 序 列 、 一 个 子 树 和 一 个 子 图 。 例如， 交易 数据 中 的 啤酒 、 尿 布 就 是 频繁 项 集 ， 是 一 个 子 集 合 。 


(2) 回归 分 类 


回归 分 类 根据 现 有 数据 建立 模型 ， 然 后 应 用 这 个 模型 对 未 来 数据 进行 预测 。 在 预测 模型 中 ， 一 个 变量 表达 为 其 他 变量 的 函数 。 因 此 ， 可 以 把 预测 建 模 的 过 程 看 做 是 学 习 一 种 映射 或 函数 Y=f OO 。 相 当 
于 在 整个 数据 集合 看 ， 数 据 集合 分 为 现 有 数据 和 未 来 待 处 理 数 据 ， 回 归 分 类 是 对 现 有 数据 集合 的 描述 ， 然 后 估计 近似 认为 整个 数据 集 的 描述 ， 待 处 理 数据 会 根据 历史 数据 得 出 模型 进行 处 理 。 


(3) 描述 建 模 


描述 建 模 要 获取 对 现 有 数据 集合 的 全 局 结构 的 描述 。 
3. 评 分 函数 


当 确 定 了 模型 或 者 模式 的 结构 之 后 ， 下 一 步 就 是 需要 确定 结构 中 的 参数 ， 将 结构 拟 合 到 数据 。 由 于 模型 或 者 模式 的 结构 是 函数 的 一 般 形 式 ， 参 数 的 空间 很 大 ， 可 选择 的 参数 非常 多 ， 所 以 需要 一 个 评分 
取 数 作为 评价 指标 ， 确 定 哪个 参数 组 合 才 能 达到 最 优 的 结果 。 常 用 的 评分 另 数 有 误差 平方 和 、 准 确 率 召回 率 和 ROC 等 。 


4. 搜 索 和 优化 方法 


确定 了 评分 函数 ， 也 就 有 了 衡量 数据 和 模型 或 者 模式 拟 合 程度 的 标准 。 搜 索 和 优化 方法 就 是 为 了 确定 模型 模式 结构 的 参数 值 。 如 果 模 型 模式 结构 没有 确定 ， 则 需要 使 用 搜索 方法 (如 贪 禁 法 、 深 度 优先 
遍历 等 ) ， 从 模型 模式 的 集合 中 发 现 最 优 的 模型 模式 结构 ， 还 需要 确定 最 优 的 结构 参数 。 对 于 固定 的 模型 模式 结构 ， 搜 索 就 在 参数 空间 进行 ， 使 用 的 是 优化 方法 (如 让 山 法 、 期 望 最 大 化 法 等 ) 。 


5 数据 管理 策略 
通常 在 大 数据 环境 下 ， 数 据 不 能 被 单机 容纳 ， 需 要 分 布 式 存储 。 这 就 需要 设计 好 数据 管理 策略 优化 提升 算法 性 能 。 针 对 大 数据 可 以 采用 、 近 似 、 压 缩 、 索 引 等 技术 提升 机 器 学 习 算 法 效率 。 


组 件 化 思想 十 分 重要 。 将 算法 分 解 ， 揭 示 了 算法 的 本 质 。 这 样 学 习 相 应 机 器 学 习 算 法 ， 就 不 再 是 无 穷 无 尽 的 算法 ， 机 器 学 习 人 员 应 该 面 对 新 应 用 ， 根 据 需 求 决定 选取 哪个 组 件 中 的 哪个 方法 来 组 合 出 一 
个 新 的 算法 ， 而 不 是 考虑 选用 哪个 现成 的 算法 。 


8.4.1 ”MLlib 简 介 


MLlib 是 一 些 常 用 的 机 器 学 习 算 法 和 库 在 Spark 平 台 上 的 实现 ， 是 AMPLab 的 在 研 机 器 学 习 项 目 MLBase 的 底层 组 件 。MLBase 是 一 个 机 器 学 习 平 台 ，MLl 是 一 个 接口 屋 ， 提 供 很 多 结构 ，M Llib 是 底层 算 


MLBase 


法 实现 层 。 三 者 关系 如 图 8-24 所 示 。 


图 8-24 MLbase 


MLlib 在 Spark 1.0 中 包含 分 类 与 回归 、 聚 类 、 协 同 过 滤 、 数 据 降 维 组 件 以 及 底层 的 优化 库 。 


通过 图 8-25， 读 者 可 以 对 MLlib 的 整体 组 件 和 依赖 库 有 宏观 的 把 握 。 


ROC 准确 率 - 召回 率 F-measure 


决策 树 


MLlib 矩阵 接口 层 
Mllib 回 量 接口 


Breeze 
Netlib-java 


BLAS/LAPACK 


图 8-25 MLlib 组 件 


下 面 简要 介绍 图 8-25 中 ， 读 者 可 能 不 太 熟悉 的 底层 组 件 。 


BLAS/LAPACKÆ: LAPACK 是 用 Fortran 编 写 的 算法 库 ， 顾 名 思 义 ，Linear Algebra PACKage 是 为 了 解决 通用 的 线性 代数 问题 的 。 另 外 必须 要 提 的 算法 包 是 BLAS (Basic Linear Algebra 
Subprograms) ， 其 实 LAPACK 底 层 使 用 了 BLAS 库 。 不 少 计算 机 厂商 都 提供 了 针对 不 同 处 理 器 进行 了 优化 的 BLAS/LAPACK 算 法 包 。 


Netlib-java (官网 地 址 为 https://github.com/fommil/netlib-java/) 是 一 个 对 底层 BLAS、LAPACK 封 装 的 Java 接 口 层 。 


Breeze (官网 地 址 为 : https://github.com/scalanlp/breeze) 是 一 个 Scala 编 写 的 数值 处 理 库 ， 提 供 向 量 、 和 矩阵 运算 等 AP|。 


库 依 赖 : MLIib 底 层 使 用 了 Scala 编 写 的 线性 代数 库 Breeze，Breeze 底 层 依赖 netlib-java 库 。netlib-java 底 层 依赖 原生 的 Fortran routines。 因 此 ， 当 用 户 使 
runtime library (下 载 地 址 为 https://github.com/mikiobraun/jblas/wiki/Missing-Libraries) 。 由 于 许可 证 


时 ， 需 要 在 节点 上 预先 安装 gfortran 
(license) 问题 ， 官 方 的 MLlib 依 赖 集中 没有 引入 netlib-java 原 生 库 的 依赖 。 如 果 运 行 时 环境 
没有 可 用 原生 库 ， 就 会 看 到 警告 信息 。 如 果 程序 中 需要 使 用 netlib-java 的 库 ， 就 需要 在 项 目 中 引入 com.github.fommil.netlib: all: 1.1.2 的 依赖 或 者 参照 指南 (网址 为 https://github.com/fommil/netlib- 
java/blob/master/README.md#machine-optimised-system-libraries) build 用 户 自己 的 项 目 。 如 果 需 要 使 用 python 接 口 ， 则 需要 1.4 或 者 更 高 版 本 的 NumPy。 (注意 : MLlib 源 码 中 注释 有 
Experimental/DeveloperApi 的 API 在 未 来 的 发 布 版 本 中 可 能 会 调整 和 改变 ， 官 方 会 在 不 同 版 本 发 布 时 提供 迁移 指南 。) 


842 ”MLlib 的 数据 存储 


MLlib 支 持 存储 在 本 地 的 向 量 和 矩阵 ， 也 提供 分 布 式 的 乱 阵 (底层 实现 是 一 个 或 多 个 RDD) 。[] 在 目前 发 布 版 本 的 实现 中 ， 本 地 的 向 量 和 和 矩阵 数据 模型 提供 公共 服务 接口 ， 基 础 的 线性 代数 操作 是 基于 
Breeze 和 jblas 库 的 。 在 MLlib 监 督学 习 中 的 一 个 训练 样 例 叫做 “标记 向 量 ” (labeled point) 。 


1. 本 地 向 量 或 矩阵 


(1) 本 地 向 量 


n 


始 (0-based indices) 的 整数 类 型 。 本 地 向 量 存储 在 单机 中 。MLlib 支 持 两 种 类 型 的 本 地 向 量 : EAE. AERE 
量 (1.0，0.0，3.0) 在 稠密 向 量 的 存储 是 


一 个 本 地 向 量 内 的 数据 类 型 为 double， 并 且 数 组 序号 是 从 0 
现 是 一 个 double 型 的 数组 存储 向 量 每 个 元 素 的 值 ， 一 个 稀疏 向 量 的 底 
[1.0，0.0，3.0]， 而 在 稀疏 和 矩阵 中 的 存储 是 (3，[0，2]，[1.0，3.0]) , WE 


层 实现 是 两 个 并 行 的 数组 ， 一 个 数组 存储 向 量 的 序号 ， 一 个 存储 向 量 元 素 值 。 例 如 ， 向 
8-26 所 示 。 这 里 的 3 代表 向 量 的 维 数 。 图 8-26 所 示 为 两 种 向 量 存储 模式 。 
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Vectors 类 中 提供 的 工厂 模式 的 方法 创建 本 地 向 量 。 


本 地 向 量 的 基本 类 是 Vector 类 ， 官 方 提供 了 Vector 类 的 两 种 实现 : 稠密 向 量 (dense vector) 和 稀 朴 向 量 (sparse vector) 。 官 方 推荐 使 


下 面 看 官方 的 向 量 创建 例子 。 


import org.apache.spark.mllib.linalg.(Vector, Vectors} 
// 创建 一 个 密集 向 量 (1.0, 0.0, 3.0) 


val dv: Vector = Vectors.dense (1.0, 0.0, 3.0) 
/* 创建 一 个 稀疏 向 量 〈1.0， 0.0, 3.0) by specifying its indices and values corresponding to nonzero entries */ 
» 


val svl: Vector = Vectors.sparse (3, Array (0, Array (1.0, 3.0) 
/* 创建 一 个 密集 向 量 (1.0, 0.0, 3.0) by specifying its nonzero entries */ 
val sv2: Vector = Vectors.sparse (3, Seq( (0, 1.0 , (2, 3.0) )) 


区 显 式 使 用 MLlib 内 的 向 量 。 


注意 : 由 于 Scala 默 认 情 况 下 引入 了 import scala.collection.immutable.Vector 库 ， 所 以 需要 引入 import org.apache.spark.mllib.linalg.Vector 库 


(2) 标记 向 量 
一 个 标记 向 量 (labeled point) 是 一 个 本 地 向 量 ， 可 以 是 稠密 向 量 ， 也 可 以 是 稀疏 向 量 ， 并 和 一 个 标记 (label) 相关 联 。 在 MLlib 中 ， 标 记 在 监督 学 习 的 算法 (如 分 类 和 回归 算法 ) 中 使 用 。 在 标记 向 
量 中 使 用 一 个 Double 类 型 数据 存储 标记 ， 即 可 在 回归 和 分 类 中 都 可 以 使 用 标记 向 量 。 对 于 二 元 分 类 来 说 ，label 可 以 为 0 (代表 negative) 或 者 1 (代表 positive) 。 对 于 多 元 分 类 问题 ， 标 记 可 以 使 用 从 0 


始 的 序号 : 0, 1, 2... 


一 个 标记 向 量 可 以 使 用 case 类 LabeledPoint 来 存储 和 呈现 。 


import org.apache.spark.mllib.linalg.Vectors 

import org.apache.spark.mllib.regression.LabeledPoint 

/* 创建 一 个 有 正 标记 和 稠密 特征 向 量 的 标记 点 */ 

val pos = LabeledPoint (1.0, Vectors.dense (1.0, 0.0, 3.00) 
/* 创建 一 个 有 负 标记 和 稀疏 特征 向 量 的 标记 点 */ 

val neg = LabeledPoint (0.0, Vectors.sparse (3, Array (0, 2), 


Array (1.00, 3.002) 


(3) 稀 琉 数据 
常见 的 情况 是 使 用 稀 玻 数据 训练 模型 。 下 面 介绍 稀 琉 数据 格式 。M1Llib 支 持 读 取 LIBSVM 格 式 (一 种 文本 格式 ) 的 训练 数据 ， 这 种 数 提 


居 默 认 被 LIBSVM 和 LIBLINEAR 使 用 。 文 件 的 每 一 行 代表 一 个 被 标记 


的 稀疏 特征 向 量 ， 它 的 格式 请 参考 : 


label index1: valuel index2: value2 http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14947/0EBPS/Text/... 


默认 序号 索引 是 从 1 开始 并 且 是 升序 的 ， 加 载 之 后 ， 特 征 的 序号 被 转换 为 从 0 开始 。 


可 以 使 用 MLUtils.loadLibSVM File 方 法 读 取 存 储 为 LIBSVM 格 式 的 训练 数据 。 


import org.apache.spark.mllib.regression.LabeledPoint 

import org.apache.spark.mllib.util.MLUtils 

import org.apache.spark.rdd.RDD 

val examples: RDD[LabeledPoint] = MLUtils.loadLibSVMFile (sc, "mllib/data/sample libsvm data.txt") 


(4) 本 地 矩阵 


一 个 本 地 矩阵 也 存储 double 型 的 数据 ， 使 用 整 型 的 行 号 和 列 号 。 MLIib 支 持 稠密 和 矩阵， 稠密 矩阵 的 值 存储 在 一 个 单独 的 double 数 组 中 ， 以 列 序 为 主 序 存储 。 例 如 ， 下 面 的 矩阵 。 


底层 存储 是 以 一 维 数组 中 存储 数据 (如 [1.0，3.0，5.0，2.0，4.0，6.0]) 和 存储 矩阵 的 行列 大 小 , 如 (3, 2) 。 在 Spark 1.0 只 提供 稠密 和 矩阵， 官方 将 在 下 一 个 版 本 提供 稀疏 矩阵 的 实现 。 本 地 矩阵 的 基 
本 类 是 Matrix， 官 方 目前 提供 了 一 种 实现 : DenseMatrix。 官 方 推荐 使 用 Matrices 类 中 的 工厂 方法 来 创建 本 地 矩阵 。 


import org.apache.spark.mllib.linalg.(Matrix, Matrices) 
/* 创建 一 个 密集 矩阵 ( (1.00, 2.00, (3.0 4.0 , (5.0, 6.0) */ 
val dm: Matrix = Matrices.dense (3, 2, Array (1.00 3.0, 5.0, 2.0, 4.0, 6.00) 
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一 个 分 布 式 的 矩阵 存储 的 是 double 类 型 的 数据 ， 底 层 采 用 一 个 或 者 多 个 RDD 和 存储， 行列 序号 采用 long 型 存储 。 存 储 分 布 式 大 数据 量 和 矩阵 的 关键 问题 是 选取 正确 的 数据 格式 。 将 一 个 分 布 式 和 矩阵 转换 为 另 
一 种 不 同 的 格式 需要 一 个 全 局 的 Shuffle 操 作 。 在 分 布 式 环境 下 ，Shuffle 开 销 很 大 。 官 方 已 经 实现 了 3 种 类 型 的 分 布 式 和 矩阵 ， 将 会 在 未 来 提供 更 多 类 型 和 矩阵 的 实现 。 分 布 式 矩 阵 的 基本 类 型 是 RowMatrix。 


一 个 RowMatrix 是 一 个 面向 行 的 分 布 式 矩 阵 。 例 如 ， 一 个 特征 向 量 集合 的 底层 实现 是 一 个 RDD，RDD 的 每 个 元 素 是 一 个 本 地 特征 向 量 。 在 这 种 情况 下 ， 对 RowMatrix 来 说 是 假设 用 户 的 特征 矩阵 维 数 不 
高 。 一 个 IndexedRowMatrix 和 RowMatrix 相 似 ， 但 是 会 存储 行 的 序号 ， 行 序号 可 以 确定 行 以 及 有 助 于 进行 连接 操作 。 一 个 CoordinateMatrix 是 一 个 分 布 式 和 矩阵 以 coordinate list (COO) 格式 存储 ， 底 层 
也 是 以 存储 它 的 数据 项 的 一 个 RDD 实 现 的 。 


注意 : 因为 已 经 缓存 了 整个 矩阵 数据 大 小 的 空间 ， 分 布 式 矩 阵 底层 实现 的 RDD 必 须 是 确定 的 。 如 果 用 非 确定 性 的 RDD， 就 很 容易 出 错 。 


(1) 行 矩阵 


一 个 行 矩阵 是 面向 行 存储 的 分 布 式 和 矩阵， 底层 是 一 个 以 本 地 行 向 量 为 数据 项 的 一 个 RDD。 由 于 每 个 行 是 一 个 本 地 向 量 ， 以 long 型 为 行 序号 ， 所 以 向 量 的 维 数 会 受 数据 类 型 范围 限制 ， 但 在 实际 情况 下 ， 
向 量 维 数 会 小 于 这 个 范围 。 


一 个 RowMatrix 可 以 从 RDD[Vector] 实 例 创建 ， 然 后 可 以 计算 行列 来 统计 数据 。 


import org.apache.spark.mllib.linalg.Vector 

import org.apache.spark.mllib.linalg.distributed.RowMatrix 

val rows: RDD[Vector] = http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/14947/OEBPS/Text/... // an RDD of local vectors 
/* 通过 RDD[Vector]fJ& —^4- (TUBE */ T 

val mat: RowMatrix = new RowMatrix (rows) 

/* 获取 矩阵 大 小 */ 

val m = mat.numRows () 

val n = mat.numCols () 


(2) 行 索引 矩阵 


一 个 行 索 引 矩 阵 (indexed Row matrix) 的 底层 实现 是 一 个 带 行 素 引 的 RDD， 这 个 RDD 每 行 是 一 个 长 整 型 的 索引 和 本 地 向 量 。 一 个 行 索引 矩阵 可 以 通过 RDD[lndexedRow] 的 RDD 创 建 ， 一 个 indexed 
row 是 一 个 元 组 (Long, Vector) 的 封装 ，Long 代 表 索 引 ，Vector 代 表 本 地 向 量 。 一 个 indexed row matrix 通 过 消除 行 索引 可 以 转换 为 row matrix, 


(3) 坐标 矩阵 


坐标 矩阵 (coordinate matrix) 是 一 个 分 布 式 和 矩阵 ， 其 底层 实现 也 是 使 用 一 个 RDD 存 储 它 的 数据 项 。 每 个 数据 项 是 一 个 元 组 (i: Long, j: Long, value: Double) ， 其 中 ， 惠 行 序号 索引 ，j 是 列 序 
号 索引 ，value 是 数据 项 的 值 。 一 个 坐标 矩阵 适用 于 和 矩阵 的 行列 维度 都 很 大 ， 但 矩阵 数据 很 稀疏 的 情况 。 


一 个 坐标 矩阵 可 以 从 RDD[MatrixEntry] 实 例 创 建 ，matrix entry 是 一 个 (Long，Long，Double) 的 封装 。 一 个 coordinate matrix 可 以 通过 调用 方法 tolndexedRowMatrix 被 转换 成 含有 稀 朴 行 的 
index row matrix。 在 Spark MLlib 1.0 中 ， 官 方 不 提供 针对 coordinate matrix 的 其 他 计算 方法 。 


[1] 参见 Spark 官 网 : https://spark.apache.org/docs/latest/mllib-basics.html。 


8.4.3 ”数据 转换 为 向 量 (向 量 空间 模型 VSM) 


因为 机 器 学 习 的 本 质 主要 是 进行 矩阵 运算 ， 所 以 在 特定 的 应 用 领域 ， 需 要 用 户 建 模 ， 并 将 领域 数据 转化 为 向 量 或 矩阵 形式 。 下 面 介 绍 文本 处 理 中 的 一 个 常用 模型 : 向 量 空间 模型 (VSM) 。 


向 量 空间 模型 将 文档 映射 为 一 个 特征 向 量 V (d) = (t1, w1 (d) ; ..; tn, wn (d) ) ， 其 中 ti (i21, 2, .., n) 为 一 列 互 不 雷同 的 词 条 项 ，wi (d) 为 ti 在 d 中 的 权 值 ， 一 般 被 定义 为 ti 在 d 中 出 现 频 
率 tfi (d) 的 函数 ， 即 wi (d) -w (tfi (d) ) 。 


N 


在 信息 检索 中 ，TF-IDF 函 数 中 -tfi (d) xs “是 常用 的 词 条 权 值 计 方法 ， 其 中 N 为 所 有 文档 的 数目 ，ni 为 含有 词 条 ti 的 文档 数目 。TF-IDF 公 式 有 很 多 变种 ， 以 下 是 一 个 常用 的 TF-IDF 公 式 。 


if. (d)log( 40.1) 
o (d) - n, 


N 


Y (DY X log’ | 一 +0.1 
n—l Ti 


J 


盏 ， 某 一 文档 中 某 一 词 条 出 现 的 频率 越 高 ， 说 明 该 文档 区 分 文档 内 容 属 性 的 能 力 


根据 TF-IDF 公 式 ， 文 档 集中 包含 某 一 词 条 的 文档 越 多 ， 说 明 该 文档 区 分 文档 类 别 属 性 的 能 力 越 低 ， 其 权 值 越 小 ; 另 一 方 
越 强 ， 其 权 值 越 大 。 
可 以 用 其 对 应 的 向 量 之 间 的 夹 角 余弦 来 表示 两 文档 之 间 的 相似 度 ， 即 文档 di、dj 的 相似 度 可 以 表示 为 : 


OO: (d, ) xo (d, ) 
sim(d,,d,) = cos 0 = t=] 


| y © (d) > O; (d,) 
k=l k-l 


在 查询 过 程 中 ， 先 将 查询 条 件 Q 进 行 向 量化 ， 主 要 依据 以 下 布尔 模型 。 


当 ti 在 查询 条 件 Q 中 时 ， 将 对 应 的 第 i 举 标 置 为 1， 和 否则 置 为 0， 即 


IL t € 


0 t £0 


文档 qd 与 查询 Q 的 相似 度 为 : 


sim(Q, d) = 


H " 


Y o(d) | 
d=] JN d= 


根据 文档 之 间 的 相似 度 ， 结 合 机 器 学 习 的 神经 网 络 算法 ，K- 近 邻 算法 和 贝 叶 斯 分 类 算法 等 一 些 算法 ， 可 将 文档 集 划 分 为 一 些小 的 文档 子 集 。 


d 
l 


在 查询 过 程 中 ， 可 以 计算 出 每 个 文档 与 查询 的 相似 度 ， 进 而 根据 相似 度 的 大 小 ， 对 查询 的 结果 进行 排序 。 


向 量 空间 模型 可 以 实现 文档 的 自动 分 类 ， 并 对 查询 结果 的 相似 度 排序 ， 这 能 够 有 效 提 高 检索 效率 。 其 缺点 是 相似 度 的 计算 量 大 ， 当 有 新 文档 加 入 时 ， 必 须 重新 计算 词 的 权 值 。 


844 MLlib 中 的 聚 类 和 分 类 


聚 类 和 分 类 是 机 器 学 习 中 两 个 常用 的 算法 ， 聚 类 将 数据 分 开 为 不 同 的 集合 ， 分 类 预测 新 数据 类 别 ， 下 面 介绍 这 两 类 算法 。 


1. 什 么 是 聚 类 和 分 类 


(1) 什么 是 聚 类 分 析 


RŽ (Clustering) 是 指 将 数据 对 象 分 组 成 为 多 个 类 或 者 簇 (Cluster) ， 它 的 目标 是 : 在 同一 个 簇 中 的 对 象 之 间 具 有 较 高 的 相似 度 ， 而 不 同 簇 中 对 象 的 差别 较 大 。 其 实 , 聚 类 在 人 们 日 常生 活 中 是 一 种 
常见 的 行为 ， 即 所 谓 的 “ 物 以 类 聚 ， 人 以 群 分 ”， 其 核心 思想 在 于 分 组 ， 人 们 不 断 地 改进 聚 类 模式 来 学 习 如 何 区 分 各 个 事物 和 人 。 


(2) 什么 是 分 类 分 析 


数据 仓库 、 数 据 库 或 者 其 他 信息 库 中 有 许多 可 以 为 商业 、 科 研 等 活动 提供 决策 的 知识 。 分 类 与 预测 即 是 其 中 的 两 种 数据 分 析 形 式 ， 可 以 用 来 抽取 能 够 构建 分 类 模型 描述 重要 数据 集合 或 预测 未 来 数据 趋 
势 。 分 类 方法 (classification) 用 于 预测 数据 对 象 的 离散 类 别 (categorical Label) ; 预测 方法 (prediction) 用 于 预测 数据 对 象 的 连续 取 值 。 


: 分 类 流程 : 新 样本 一 特征 选取 一 分 类 一 评价 。 


“ 训练 流程 : 训练 集 一 特征 选取 一 训练 一 分 类 器 。 


最 初 ， 机 器 学 习 的 分 类 应 用 大 多 都 是 在 这 些 方法 及 基于 内 存 基础 上 所 构造 的 算法 。 目 前 ， 数 据 挖掘 方法 都 要 求 具有 处 理 大 规模 数据 集合 能 力 ， 同 时 具有 可 扩展 能 力 。 


2.MLlib 中 的 聚 类 和 分 类 


MLIib 目 前 已 经 实现 了 K-Means 聚 类 算法 、 朴 素 贝 叶 斯 和 决策 树 分 类 算法 。 这 里 主要 介绍 广泛 使 用 的 K-Means 聚 类 算法 和 贝 叶 斯 分 类 算法 。 


(1) K-Means 算 法 


1) K-Means 算 法 简介 。 


K-Means 聚 类 算法 能 轻松 地 对 聚 类 问题 建 模 。K-Means 聚 类 算法 容易 理解 ， 并 且 能 在 分 布 式 的 环境 下 并 行 运行 。 学 习 K-Means 聚 类 算法 ， 能 更 容易 地 理解 聚 类 算法 的 优 缺 点 ， 以 及 其 他 算法 对 于 特定 


数据 的 高 效 性 。 


K-Means 聚 类 算法 中 的 K 是 聚 类 的 数目 ， 在 算法 中 会 强制 要 求 用 户 输入 。 如 果 将 新 闻 聚 类 成 诸如 政治 、 经 济 、 文 化 等 大 类 ， 可 以 选择 10~20 的 数字 作为 K。 因 为 这 种 顶级 类 别 的 数量 是 很 小 的 。 如 果 要 对 
这 些 新 闻 详 细 分 类 ， 选 择 50~ 100 的 数字 也 没有 问题 。K-Means 聚 类 算法 主要 分 为 3 步 。 第 一 步 是 为 待 聚 类 的 点 寻找 聚 类 中 心 ; 第 二 步 是 计算 每 个 点 聚 类 中 心 的 距离 ， 将 每 个 点 聚 类 到 离 该 点 最 近 的 聚 类 中 ; 
第 三 步 是 计算 聚 类 中 所 有 点 的 坐标 平均 值 ， 并 将 这 个 平均 值 作 为 新 的 聚 类 中 心 点 。 反 复 执行 第 二 步 ， 直 到 聚 类 中 心 不 再 进行 大 范围 的 移动 ， 或 者 聚 类 次 数 达 到 要 求 为 止 。 


2) k-Means 示 例 。 
表 8-7 中 的 例子 有 7 名 选手 ， 每 名 选手 有 两 个 类 别 的 比分 : A 类 比分 和 B 类 比分 。 


A87 A 类 和 B 类 比分 


Subject Subject B 
1 5.0 
2 5.0 
3 4.5 
4 


些 数 据 将 会 聚 为 两 个 簇 。 随 机 选取 1 号 和 4 号 选手 作为 簇 的 中 心 。1 号 和 4 号 选手 信息 如 表 8-8 所 示 。 


bi 


表 8-8 1 号 和 4 号 选手 信息 


Individual Mean Vector (centroid) 


( 1.0, 1.0) 


Group 1 


Group 2 


第 一 步 将 1 号 和 4 号 选手 分 别 作为 两 个 簇 的 中 心 点 ， 下 面 每 一 步 将 选取 点 和 两 个 簇 中 心计 算 欧 几 里 得 距离 ， 和 哪个 中 心 距离 小 就 放 到 哪个 簇 中 。 表 8-9 所 示 为 第 一 聚 类 。 


表 8-9 第 一 步 聚 类 


步骤 Cluster 1 Cluster 2 
Step Individual Mean Vector (centroid) Individual Mean Vector (centroid) 
1 (1.0, 1.0) | 4 (5.0, 7.0) 
2 (5.0, 7.0) 
3 (5.0, 7.0) 
4 (4.2, 6.0) 
5 (4.3, 5.7) 
6 (4.1, 5.4) 


第 一 轮 聚 类 的 结果 产生 了 ， 如 表 8-10 所 示 。 


表 8-10 第 一 轮 结果 


Individual Mean Vector (centroid) 


3 


Cluster 1 (1.8, 2.3) 


Cluster 2 


第 二 轮 将 使 用 (1.8, 2.3) 和 (4.1, 5.4) FAIRE Ò, SLAWE, BIA ORATE. Bun 2618162 GBURSA SRL ER BUR AS ASER, 


3) MLlib 的 KMeans 源 码 解析 。 


MLlib 中 的 KMeans 初 始 的 类 簇 中 心 点 的 选取 有 两 种 方法 ， 一 种 是 随机 ， 一 种 是 采用 KMeans|| (KMeans++ 的 一 个 变种 ) 。 算 法 的 停止 条 件 是 迭代 次 数 达到 设置 的 次 数 ， 或 者 在 某 一 次 迭代 后 ， 所 有 
run 的 KMeans 算 法 都 收敛。 


@ 类 艇 中 心 初始 化 。 


MLlib 中 KMeans 初 始 化 方法 是 对 每 个 运行 的 KMeans 都 随机 选择 K 个 点 作为 初始 类 簇 。 代 码 实现 如 下 。 


private def initRandom (data: RDD[Array[Double]]) : Array[ClusterCenters] = ( 
// Sample all the cluster centers in one pass to avoid repeated scans 
val sample = data.takeSample (true, runs * k, new Random () .nextInt () ) .toSeq 
Array.tabulate (runs) (r => sample.slice (r * k, (r +1) * k) .toArray) 
} 


ORE TENRAI. 


在 每 一 次 迭代 中 ， 首 先 计算 属于 各 个 类 簇 的 点 ， 然 后 更 新 各 个 类 簇 的 中 心 。 


/* KMeans 算 法 的 并 行 实现 通过 Spark 的 mapPartitions 函 数 获取 到 分 区 的 迭代 器 。 可 以 在 每 个 分 区 内 计算 该 分 区 内 的 点 属于 哪个 类 徐 ， 之 后 对 于 每 个 运行 算法 中 的 每 个 类 艇 ， 计 算 属 于 该 类 艇 的 点 数 以 及 累加 和 */ 
val totalContribs = data.mapPartitions ( points => 
val runs - activeCenters.length 
val k = activeCenters (0) .length 
val dims = activeCenters (0) (0) .length 
val sums = Array.fill (runs, k) (new DoubleMatrix (dims) ) 
val counts = Array.fill (runs, k) (0L) 


for (point <- points; (centers, runIndex) <- activeCenters.zipWithIndex) { 
/* 找 到 距离 该 点 最 近 的 类 簇 中 心 点 */ 
val (bestCenter, cost) = KMeans.findClosest (centers, point) 


/* 统 计 该 运行 算法 开销 ， 用 于 在 之 后 选取 开销 最 小 的 运行 的 算法 */ 


costAccums (runIndex) += cost 


/* 将 该 点 加 到 最 近 的 类 艇 的 统计 总 和 中 ， 方 便 之 后 计算 该 类 簇 的 新 中 心 点 */ 
sums (runIndex) (bestCenter) .addi (new DoubleMatrix (point) ) 
/* 将 距离 该 点 最 近 的 类 簇 的 点 数 加 1，sum.divi (count) 就 是 类 入 的 新 中 心 */ 
counts (runIndex) (bestCenter) += 1 
} 
val contribs = for (i <- 0 until runs; j <- 0 until k) yield 
{ C, 3, (sums (i) (j), counts G) (302) 


contribs.iterator 

/* 对 于 每 个 运行 算法 的 每 个 类 徐 ， 计 算 属 于 该 类 簇 的 点 ， 并 对 点 个 数 求 和 “*/ 

} .reduceByKey (mergeContribs) .collectAsMap () 

/* mergeContribs 是 一 个 负责 合并 的 函数 。 */ 

def mergeContribs (pl: WeightedPoint, p2: WeightedPoint) : WeightedPoint = { 
(pl. 1.addi (p2. 1), pl. 2 + p2. 2) 

} 


for ( (run i) <- activeRuns.zipWithIndex) { 
var changed - false 
for (j <- 0 until k) ( 
val (sum count) = totalContribs ( (i, j)) 
if (count ! = 0) { 
/* 计 算 类 簇 的 新 中 心 点 */ 
val newCenter = sum.divi (count) .data 
if (MLUtils.squaredDistance (newCenter, centers (run) (j) ) > epsilon * 


£ 
/* 此 处 代码 和 算法 的 停止 条 件 有 关 */ 


changed = true 


epsilon) 


centers (run) (j) = newCenter 


} 


} 

/* 如 果 在 某 个 run 的 KMeans 算 法 的 某 轮 次 兴 代 中 ，FK 个 类 簇 的 中 心 点 变化 都 不 超过 指定 阔 值 ， 则 认 
为 该 KMeans 算 法 收敛 */ 

if (! changed) { 

active (run) = false 

logInfo ("Run " + run + " finished in " + (iteration + 1) + " iterations") 


) 


costs (run) - costAccums (i) .value 


f 
@ 算 法 停止 条 件 。 
算法 的 停止 条 件 是 迭代 次 数 达 到 设置 的 次 数 ， 或 者 所 有 运行 的 KMeans 算 法 都 收敛 。 
while (iteration < maxIterations && ! activeRuns.isEmpty) 


(2) 朴素 贝 叶 斯 分 类 


朴素 贝 叶 斯 分 类 算法 是 贝 叶 斯 分 类 算法 的 多 个 变种 之 一 。 朴 素 是 指 假设 各 属性 之 间 是 相互 独立 的 。 


性 值 对 给 定 类 的 影响 独立 于 其 他 的 属性 值 ， 因 此 假设 在 实际 情况 经 常 是 不 成 立 的 ， 其 分 类 准确 率 可 能 会 下 降 。 


朴素 贝 叶 斯 分 类 算法 是 一 种 监督 学 习 算法 ， 使 用 朴素 贝 叶 斯 分 类 算法 对 文本 进行 分 类 主要 有 两 种 模型 ， 即 多 项 式 模型 (multinomial model) 和 伯 努 利 模型 (Bernoulli model) 。MLIib 使 用 广泛 应 


的 多 项 式 模型 。 下 面 将 以 实例 简单 介绍 使 用 多 项 式 模型 的 朴素 贝 叶 斯 分 类 算法 。 


T 
m 


在 多 项 式 模型 中 ， 设 某 文档 d= (t1, t2, .., tk) ,tk 是 该 文档 中 出 现 过 的 单词 ， 人 允许 和 
先 验 概率 P (c) = 类 c 下 单词 总 数 /整个 训练 样本 的 单词 总 数 


类 条 件 概率 P (tk|c) = (类 c 下 单词 tk 在 各 个 文档 中 出 现 的 次 数 之 和 +1) / (类 c 下 单词 总 数 +|V|) 


V 是 训练 样本 的 单词 表 ( 即 抽 取 单 词 ， 单 词 出 现 多 次 ， 只 算 一 个 ) ，|V| 表 示 训 练 样本 包含 多 少 种 


Rig P (tk|c) 可 以 看 做 是 单词 tk 在 证 明 d 


整体 上 占 多 大 比例 (有 多 大 可 能 性 ) 。 


给 定 如 下 一 组 分 好 类 的 文本 训练 数据 如 表 8-11 所 示 。 


表 8-11 文本 训练 数据 


文档 id 文档 内 容 


l 河北 Jem 河北 


2 河北 河北 | 


uw 


4 : 林 香港 ”河北 


研究 发 现 ， 在 大 多 数 情况 下 ， 朴 素 贝 叶 斯 分 类 算法 (Naive Bayes Classifier) 在 性 能 上 与 决策 树 
(decision tree) 、 神 经 网 络 (netural network) 相当 。 贝 叶 斯 分 类 算法 在 大 数据 集 的 应 用 中 具有 方法 简便 、 准 确 率 高 和 速度 快 的 优点 。 但 事实 上 ， 贝 叶 斯 分 类 也 有 其 缺点 。 由 于 贝 叶 斯 定理 假设 一 个 属 


属于 类 c 上 提供 了 多 大 的 证 据 ，P (c) 则 可 以 认为 是 类 别 c 在 


类 别 古 否 为 河北 


Ves 
YeS 
yes 


no 


给 定 一 个 新 样本 (河北 河北 河北 吉林 香港 ) ， 对 其 进行 分 类 。 该 文本 用 属性 向 量 表示 为 d= (河北 ， 河 北 ， 河 北 ， 吉 林 ， 香 港 ) ， 类 别 集合 为 Y={yes，no}。 


类 yes 下 总 共有 8 个 单词 ， 类 no 下 总 共有 3 个 单词 ， 训 练 样本 单词 总 数 为 11， 因 此 P (yes) -8/11, 


P (河北 | yes) = (5+1) / (8+6) —6/14-3/7 

P (河北 | yes) =P (吉林 | yes) = (0+1) / (8+6) =1/14 
P (河北 | no) = (1+1) / (3+6) =2/9 

P (香港 | no) =P (吉林 | no) = (1+1) / (3+6) =2/9 


P (no) =3/11。 类 条 件 概率 计算 如 下 。 


分 母 中 的 8 是 指 yes 类 别 下 textc 的 长 度 ， 即 训练 样本 的 单词 总 数 ，6 是 指 训练 样本 有 河北 、 北 京 、 
正则 化 参数 。 


有 了 以 上 类 条 件 概率 ， 计 算 后 验 概率 如 下 。 


上 海 、 广 东 、 吉 林 、 香 港 共 6 个 单词 ，3 是 指 no 类 下 共有 3 个 单词 。 所 有 项 中 分 子 中 的 1 和 分 母 中 的 6 代表 


P (yes | d) = (3/7) 3x1/14x1/14x8/11-108/184877«0.00058417 
P (no | d) = (2/9) 3x2/9x2/9x3/11-32/21651340.00014780 


比较 大 小 ， 即 可 知道 这 个 文档 属于 类 别 “ 河 北 ”。 


8.4.5 ”算法 应 用 实例 


MLIib 是 一 些 常用 机 器 学 习 算 法 在 Spark 上 的 实现 ，Spark 的 设计 初 吉 是 支持 一 些 迭 代 的 大 数据 算法 。 下 面 通过 一 个 例子 使 
MLIib 之 旅 。 
1. 程 序 代码 


使 用 支持 向 量 机 进行 分 类 的 代码 如 下 。 


Mllib 支 持 向 量 机 进行 分 类 ， 并 将 程序 打包 执行 ， 读 者 可 以 通过 示例 开启 


import org.apache.spark.SparkContext 

import org.apache.spark.mllib.classification.SVMWithSGD 

import org.apache.spark.mllib.regression.LabeledPoint 

Val SL = new Sparkcontext ("Local", "SVM", "/root", Sep "svm.jar") ) 

/* 加 载 和 解析 样 例 数据 文件 */ 

val data = sc.textFile ("mllib/data/sample svm data.txt") 

val parsedData = data.map ( line => utbs 
val parts = line.split (' ') 

/* 将 数据 转化 为 标记 向 量 */ 
LabeledPoint (parts (0) .toDouble, 


} 
/* 配置 欠 代 次 数 为 20 */ 
val numIterations = 20 
/* 使 用 SVMWithSsGD 类 ， 训 练 模型 。 其 中 使 用 的 优化 方法 是 随机 梯度 下 降 CSGD) */ 
val model = SVMWithSGD.train (parsedData, numIterations) 
/* 使 用 训练 好 的 模型 进行 分 类 预测 */ 
val labelAndPreds = parsedData.map { point => 
val prediction = model.predict (point.features) 


parts.tail.map (x => x.toDouble) .toArray) 


(point.label, prediction) 
l 
/* 统 计 分 类 错误 并 打印 */ 
val trainErr = labelAndPreds.filter (r => r. 1 ! = r. 2) .count.toDouble / parsedData.count 
println ("trainError = " + trainErr) T T 
与 开发 Spark 应 用 程序 一 样 ， 可 以 在 spark-shell 中 交互 式 地 运行 MLlib， 也 可 以 把 代码 打包 成 一 个 jar 提 交 到 Spark 集 群 中 执行 。 


2. 在 Spark Shell 中 运行 


在 Spark 根 目录 执行 bin/spark-shell 命 令 。 然 后 将 示例 代码 复制 进 Shell。 


3. 打 包 为 Jar 运 行 


1) 新 建 项 目 ， 项 目 中 需要 创建 一 个 SVM_TEST 类 ， 将 使 用 支持 向 量 机 进行 分 类 的 代码 复制 到 main 函 数 中 ， 然 后 配置 SparkContext。 


2) 示例 项 目下 需要 有 一 个 sbt 配 置 文件 simple.sbt， 输 入 下 面 的 配置 项 。 


name : = "SVM TEST" 
version : = "1.0" 
scalaVersion : = "2.10.3" 


libraryDependencies += "org.apache.spark" $$ "spark-core" $ "1.0.0-incubating" 
FT ACPIURMLL IDEAE, HIDU ROT AMA cet 

libraryDependencies += "org.apache.spark" $$ "spark-mllib" $ "1.0.0-incubating" 
resolvers += "Akka Repository" at "http: //repo.akka.io/releases/" 


3) 把 上 述 文件 组 织 成 一 定 的 目录 结构 。 


./simple.sbt 

./src 

./src/main 

./src/main/scala 
./src/main/scala/SVM TEST.scala 


4) 在 示例 项 目 根 目录 下 执行 以 下 操作 。 


@ 打 包 项目 。 


sbt package 


@ 执 行 项 目 。 


sbt run 


@ 在 控制 台 得 到 以 下 结果 。 


trainError = 0.40372670807453415 
14/08/26 18: 26: 22 INFO network.ConnectionManager: Selector thread was interrupted! 
[success] Total time: 4 s, completed Oct 1, 2014 8: 26: 22 PM 


8.4.6 利用 MLlib 进 行 电影 推荐 


下 面 介 绍 MLib 进 行 个 性 化 的 电影 推荐 应 用 。 通 过 Berkely 的 这 个 典型 案例 ， 用 户 可 以 更 加 深入 地 理解 MU 


影片 上 的 1 干 万 个 评分 数据 集 。 这 里 假定 这 个 数据 集 已 经 预 加 载 进 集群 的 HDFS 文 件 夹 /movielens/large 下 。 为 了 快速 测试 代码 ， 可 以 先 使 


集 包 含 6000 名 用 户 在 4000 部 影片 上 的 1 百 万 个 评分 数据 。 


1 数据 集 


ib 以 及 学 会 如 何 构建 自己 的 MLIib 应 用 。[1] 本 例 中 使 


本 例 使 用 MovieLens 数 据 集中 的 两 个 文件 : “ratings.dat.” 和 “movies.dat”。 所 有 的 评分 数据 按照 下 | 


面 的 格式 存储 “ratings.dat” 中 。 


文件 夹 /movielens/medium 中 的 小 数 


MovieLenss 收 集 的 72000 名 用 户 


在 1 万 部 


居 集 进行 测试 ， 这 个 数据 


UserID: : MovieID: : Rating: : Timestamp 


在 “movies.dat” 中 以 下 面 的 格式 存储 电影 信息 。 


MovieID: : Title: : Genres 


2 协同 过 滤 


协同 过 滤 是 推荐 系统 普遍 使 用 的 方法 。 这 些 技术 的 本 质 目的 是 填充 user-item 关 联 和 矩阵 中 的 缺失 数据 项 。MLlib 1.0 支 持 基于 模型 的 协同 过 滤 ， 这 时 通过 一 个 隐 含 因子 的 小 集合 来 预测 缺失 的 数 
。ALS 算 法 为 了 最 小 化 损失 函数 f， 通 过 交替 固定 Users 或 者 M ovies 向 量 ， 对 损失 函数 求 导 ， 最 终 


MLlib 通 过 实现 交 蔡 最 小 二 乘法 (ALS) 去 求 出 这 些 隐 含 因子 (latent factors) 。 图 8-25 为 ALS 算 法 的 解析 图 


求 出 逼近 Ratings 和 矩阵 的 结果 ， 使 用 这 个 结果 进行 电影 推荐 ， 如 图 8-27 所 示 。 


低 秩 矩 阵 分 解 : 
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图 8-27 ALS 算 法 


3. 配 置 


Ui, 


Movie Factors (M) 


针对 本 例 使 用 一 个 standalone 项 目 模 板 。 假 设 在 用 户 的 环境 中 ， 已 经 配置 好 所 需 路 径 和 文件 (实例 下 载 地 址 为 https://github.com/amplab/training/tree/ampcamp4/machine-learning/scala) , 


这 些 已 经 在 /root/machine-learning/scala/ 中 设置 ， 读 者 将 会 在 目录 下 找到 以 下 选项 。 
“ sbt: 包含 SBT 工 具 的 目录 。 
“build.sbt: SBT 项 目 文件 。 
“ MovieLensALS.scala: 用 户 需 要 编译 和 运行 的 主要 Scala 主 程序 。 


“solution: 包含 solution 代 码 的 目录 。 


户 需要 编辑 、 编 译 和 运行 的 主要 文件 是 MovieLensALS.scala， 可 以 将 下 面 的 代码 模板 拷贝 到 文件 中 。 


import java.util.Random 

import org.apache.10og4j.Logger 

import org.apache.1log4j.Level 

import scala.io.Source 

import org.apache.spark.SparkConf 

import org.apache.spark.SparkContext 

import org.apache.spark.SparkContext. _ 

import org.apache.spark.rdd. 

import org.apache.spark.mllib.recommendation.(ALS, Rating, MatrixFactorizationModel) 

object MovieLensALS ( 

def main (args: Array[String]) { 

Logger.getLogger ("org.apache.spark") .setLevel (Level .WARN) 
Logger.getLogger ("org.eclipse.jetty.server") .setLevel (Level .OFF) 


if (args.length ! = D) ( 
println ("Usage: sbt/sbt package V'run movieLensHomeDirVW"") 
exit (1) 


l 
/* 配置 环境 */ 
val jarFile = "target/scala-2.10/movielens-als 2.10-0.0.jar" 
val sparkHome = "/root/spark" 
val master = Source.fromFile ("/root/spark-ec2/cluster-url") .mkString.trim 
val masterHostname = Source.fromFile ("/root/spark-ec2/masters") .mkString.trim 
val conf - new SparkConf () 
.setMaster (master) 
.setSparkHome (sparkHome? 
.setAppName ("MovieLensALS") 
.Set ("spark.executor.memory", "8g") 


.SetJars (Seq (jarFile) ) 
val sc = new SparkContext (conf) 


/* 加 载 评分 和 电影 标题 */ 


val movieLensHomeDir = "hdfs: //" + masterHostname + ": 9000" + args (0) 
val ratings = sc.textFile (movieLensHomeDir + "/ratings.dat") .map { line => 
val fields = line.split (": : ") 


/* 格式 为 : (timestamp $ 10, Rating (userId, movieId, rating) ) */ 
(fields (3) .toLong $ 10, Rating (fields (0) .toInt, fields (1) .toInt, fields (2) .toDouble) ) 
} 
val movies = sc.textFile (movieLensHomeDir + "/movies.dat") .map { line => 
val fields = line.split (": : ") 
/* 格式 为 : ^ (movield, movieName) */ 
(fields (0) .toInt, fields (1) ) 
).collect.toMap 
sc.stop O ; 


l 
/** 计算 RMSE (Root Mean Squared Error) */ 
def computeRmse (model: MatrixFactorizationModel, data: RDD[Rating], n: long) = { 


l 
def elicitateRatings (movies: Seq[ (Int, String) ] = { 


y 


首先 通过 文本 编辑 器 打开 MovieLensALS 文 件 。 


cd /root/machine-learning/scala 


vim MovieLensALS.scala# 如 果 不 使 用 vim， 还 可 以 使 用 emacs 或 者 nano 进 行文 本 编辑 。 


可 以 选用 常用 的 文本 编辑 器 打开 文件 ， 将 示例 拷贝 进 文件 中 。 


对 于 任何 的 Spark 计 算 任务 来 阅 ， 第 一 步 都 需要 创建 SparkConf 对 象 。 然 后 通过 它 创 建 SparkContext 对 象 。 对 于 Scala 或 者 Java 程 序 来 说 ， 需 要 配置 Spark 集 群 的 URL、Spark 主 目录 和 用 户 程序 需要 的 
JAR 文 件 进 行 初始 化 。 对 于 Python 程序 来 说 ， 只 需要 配置 Spark cluster URL 一 个 参数 即 可 。 最 后 还 需要 配置 一 个 应 用 名 称 ， 以 便 在 Spark Web UI 中 确认 程序 。 


@ 可 以 参照 下 面 的 初始 化 代码 。 


val conf = new SparkConf () 
.setMaster (master) 
.setSparkHome (sparkHome) 
.SetAppName ("MovieLensALS") 
.set ("spark.executor.memory",  "8g") 
.setJars (Seq (jarFile) ) 
val sc = new SparkContext (conf) 


@ 使 用 SparkContext 对 象 读 取 评分 文件 。 评 分 文件 以 “: : ”作为 分 隔 符 。 下 面 的 代码 解析 评分 文件 的 每 行 创建 以 〈Int，Rating) 对 为 数据 项 的 一 个 DD。 这 里 保存 时 间 戳 的 最 后 一 个 数字 作为 一 个 
随机 关键 字 。Ratingclass 是 一 个 对 元 组 (user: Int, product: Int, rating: Double) 的 包装 类 ， 它 在 MLlib 的 包 org.apache.spark.mllib.recommendation 中 定义 。 


val movieLensHomeDir = "hdfs: //" + masterHostname + ": 9000" + args (0) 
val ratings = sc.textFile (movieLensHomeDir + "/ratings.dat") .map ( line => 
val fields = line.split (": : ") 


/* 格式 为 : (timestamp $ 10, Rating (userId, movielId, rating) ) */ 
(fields (3) .toLong $ 10, Rating (fields (0) .toInt, fields (1) .toInt, fields (2). 
toDouble) ) 

} 


@ 通 过 读 取 movie id 和 ltitle 将 其 转化 电影 1D 到 title 的 映射 。 


val movies = sc.textFile (movieLensHomeDir + "/movies.dat") .map { line => 
val fields = line.split (": : ") 
/* 格式 为 : ^ (movield, movieName) */ 
(fields (0) .toInt, fields (1) ) 
).collect.toMap 


至 此 ， 用 户 可 以 统计 一 些 评分 数据 。 


val numRatings = ratings.count 
val numUsers = ratings.map ( . 2.user) .distinct.count 
val numMovies = ratings.map ( . 2.product) .distinct.count 
println ("Got " + numRatings + " ratings from " 
+ numUsers + " users on " + numMovies + " movies.") 


户 应 该 知道 如 何 运行 例子 。 保 存 之 前 编辑 的 MovieLensALS 文 件 ， 然 后 运行 下 面 的 命令 。 


cd /root/machine-learning/scala 


如 果 用 户 需要 运行 大 数据 集 ， 则 将 参数 medium 转 换 为 large， 进 而 在 大 数据 集 上 运行 例子 : 


sbt/sbt package "run /movielens/medium" / * 其 中 /movielens/medium 是 主 程序 main 函 数 的 输入 参数 */ 


这 个 命令 将 会 编译 MovieLensALS 类 ， 然 后 在 /root/machine-learning/scala/target/scala-2.10/ 目 录 下 创建 一 个 JAR 文 件 ， 最 后 运行 这 个 程序 ， 在 用 户 的 控制 台 上 显示 下 面 的 输出 。 


Got 1000209 ratings from 6040 users on 3706 movies. 


5. 启 发 评级 


为 了 向 用 户 推荐 ， 需 要 通过 用 户 评价 的 一 些 电影 了 解 用 户 的 兴趣 。 需 要 统计 每 个 电影 接收 到 的 评分 ， 然 后 根据 评分 数 排序 。 最 后 获取 评分 最 高 的 50 部 电影 ， 采 样 出 一 个 小 集合 进行 启发 评级 。 


val mostRatedMovieIds = ratings.map ( . 2.product) 
/* 抽取 movie id*/ 

.countByValue 

/* 计算 每 个 novie 的 评分 */ 

.toSeq 

/* 将 数据 转换 为 Seq 格 式 */ 

.sortBy (- . 2) 

/* 通过 评分 数 排序 */ 

.take (50) 


/* 获得 评分 数 最 多 的 50 部 movie*/ 
map ( . 1) 

/* 获取 它们 的 ID*/ 

val random = new Random (0) 

val selectedMovies = mostRatedMovields.filter (x => random.nextDouble () < 0.2) 
.map (x => (x, movies (x) ) ) 

.toSeq 


每 个 被 挑选 到 的 电影 都 需要 评分 (评分 为 0~5 的 整数 ， 如 果 没 有 看 过 ， 则 填 0) 。 方 法 eclicitateRatings 返 回 
RDDI[Rating] 实 例 。 


val myRatings = elicitateRatings (selectedMovies) 
val myRatingsRDD = sc.parallelize (myRatings) 


会 分 配 到 一 个 特殊 的 


的 评分 ， 用 


户 ID 0。 这 个 评分 通过 sc.parallelize. 转 换 为 一 个 


运行 以 上 程序 ， 将 会 看 到 和 下 面 类 似 的 提示 。 


Please rate the following movie (1-5 (best), or 0 if not seen): 


Raiders of the Lost Ark (1981): 


6 . 切 分 训练 数据 


使 用 MLIib 中 的 ALS 算 法 将 会 


RDDIRating] 实 例 作为 输入 来 训练 一 个 模型 。ALS 算 法 有 一 些 训练 参数 。 例 如 ， 和 矩阵 因子 的 排名 和 正则 化 器 的 实例 。 为 了 确定 一 个 好 的 训练 参数 ， 基 于 时 间 戳 的 最 后 一 位 


将 数据 分 成 3 个 没有 交集 的 子 集 ， 称 为 训练 集 、 测 试 集 和 评价 集 ， 并 将 它们 缓存 。 接 下 来 会 通过 训练 集训 练 不 同 的 模型 ， 通 过 RMSE (root mean squared error) 方法 和 评价 集 选 取 最 好 的 集合 ， 通 过 测试 
集 评价 最 好 的 模型 ， 并 将 用 户 的 评分 加 入 测试 集中 ， 进 而 对 用 户 推荐 。 在 这 个 过 程 中 ， 由 于 需要 多 次 访问 这 些 数据 ， 所 以 会 把 训练 集 、 评 价 集 和 测试 集 通 过 persist 方 法 放 到 内 存 。 


val numPartitions = 20 
val training = ratings.filter (x => x. 1 < 6) 
.values s 
-union (myRatingsRDD) 
.repartition (numPartitions) 
.persist 
val validation = ratings.filter (x => x. 1 >= 6 && x. 1« 8) 
.values n B 
.repartition (numPartitions) 
.persist 
val test = ratings.filter (x => x. 1 »- 8) .values.persist 
val numTraining = training.count ` 
val numValidation = validation.count 
val numTest = test.count 


println ("Training: " + numTraining + ", validation: " + numValidation + ", test: " + numTest) 
在 进行 切 分 之 后 ， 用 户 将 会 看 到 下 面 的 日 志 信息 。 
Training: 602251, validation: 198919, test: 199049. 


7. 通 过 ALS 算 法 进行 模型 训练 


下 面 使 用 ALS.train 方 法 来 训练 一 组 模型 ， 然 后 从 中 评价 和 选择 出 最 好 的 模型 。ALS 所 有 训练 算法 中 最 重要 的 参数 是 rank、lambda (正则 化 常数 ) 和 人 友 代 次 数 iterations。 使 用 的 ALS 算 法 中 的 train 方 法 


以 下 面 的 方式 给 出 。 


object ALS ( 
def train (ratings: RDD[Rating], 
MatrixFactorizationModel = ( 


rank: Int, iterations: Int, lambda: Double) 


在 理想 情况 下 ， 


户 希 望 能 够 尝试 所 有 的 参数 组 合 来 发 现 最 好 的 状况 。 但 是 由 于 时 间 的 约束 ， 本 例 只 会 测试 8 种 组 合 : 两 种 不 同 的 rank (8 和 12) 、 两 种 不 同 的 lambdas (1.0 和 10.0) 以 及 两 种 不 同 的 


iterations (10 和 20) 。MLlib 中 提供 方法 computeRmse 在 每 个 模型 的 评价 集 上 计算 RMSE。RMSE 值 最 小 的 评价 集 将 被 最 后 选择 ，RMSE 值 作为 评价 指标 。 


val ranks = List (8, 12) 
val lambdas = List (0.1, 10.0) 
val numIters = List (10, 20) 
var bestModel: Option[MatrixFactorizationModel] = None 
var bestValidationRmse = Double.MaxValue 
var bestRank - 0 
var bestLambda - -1.0 
var bestNumIter = -1 
for (rank <- ranks; lambda <- lambdas; 
val model = ALS.train (training, rank, numIter, lambda) 
val validationRmse = computeRmse (model, validation, numValidation) 
println ("RMSE (validation) = " + validationRmse + " for the model trained 
with rank = " 
+ rank + ", lambda = " + lambda + ", and numIter = " + numIter + ".") 
if (validationRmse < bestValidationRmse) { 
bestModel = Some (model) 
bestValidationRmse - validationRmse 
bestRank - rank 
bestLambda = lambda 
bestNumIter - numIter 
} 
} 
val testRmse = computeRmse (bestModel.get, 


numIter <- numIters) ( 


test, numTest) 


println ("The best model was trained with rank = " + bestRank + " and lambda = " + bestLambda 


+", and numIter = " + bestNumIter + ", and its RMSE on the test set is " 


+ testRmse + ".") 


程序 运行 成 功 后 ， 


户 将 在 控制 台 看 到 下 面 的 信息 。 


The best model was trained using rank 8 and lambda 10.0, 


8. 电 影 推荐 


最 后 可 以 看 到 通过 训练 出 的 模型 推荐 给 


户 哪些 电影 。 推 荐 是 通过 生成 用 户 没有 评分 的 电影 的 (0，movield) 对 ， 然 后 调 


and its RMSE on test is 0.8808492431998702. 


predict 方 法 获取 预测 。 


class MatrixFactorizationModel ( 


def predict (CuserProducts: RDD[ (Int, Int) ]) : RDD[Rating] = ( 
} 
} 


获取 所 有 的 预测 之 后 ， 用 户 可 以 列 出 top 50 的 推荐 电影 。 


val myRatedMovields = myRatings.map ( .product) .toSet 
val candidates = sc.parallelize (movies.keys.filter (! myRatedMovieIds.contains ( ) ) .toSeq) 
val recommendations = bestModel.get 
.predict (candidates.map ( (0, 202) 
-collect 
.sortBy (- .rating) 
.take (50) 
var i=1 
println ("Movies recommended for you: ") 
recommendations.foreach { r => 
println ("%2d".format (i) + ": " + movies (r.product) ) 
i +=1 


} 


户 会 得 到 类 似 下 面 的 输出 。 


Movies recommended for you: 


1: Silence of the Lambs, The (1991) 

2: Saving Private Ryan (1998) 

3: Godfather, The (1972) 

4: Star Wars: Episode IV - A New Hope (1977) 

5: Braveheart (1995) 

6: Schindler's List (1993) 

7: Shawshank Redemption, The (1994) 

8: Star Wars: Episode V - The Empire Strikes Back (1980) 
9: Pulp Fiction (1994) 

0: Alien (1979) 


ic 


由 于 数据 集 较 旧 ， 显 示 的 基本 都 是 老 电 影 。 


[1] 示例 参考 : http://ampcamp.berkeley.edu/big-data-mini-course/movie-recommendation-with-mllib.html 


8.5 ”本 章 小 结 


本 章 主要 介绍 了 BDAS 中 广泛 应 用 的 几 个 数据 分 析 组 件 。SQL on Spark 提 供 在 Spark 上 的 SQL 查询 功能 ， 让 用 户 可 以 基于 内 存 计算 和 SQL 进行 大 数据 分 析 。 通 过 Spark Streaming， 用 户 可 以 构建 实时 流 
处 理应 用 ， 高 吞吐 量 ， 以 及 适合 历史 和 实时 数据 混合 分 析 的 特性 ， 使 Spark Streaming 在 流 数据 处 理 框架 中 突出 重围 。GraphX 充 当 Spark 生 态 系统 中 图 计算 的 角色 ， 其 简洁 的 AP 使 图 处 理 算法 的 书写 更 加 
便捷 。 最 后 介绍 了 MLIib，Spark 上 的 机 器 学 习 库 。 它 充分 利用 Spark 内 存 计 算 和 适合 迭代 的 特性 ， 使 分 布 式 系统 与 并 行 机 器 学 习 算 法 完美 结合 。 相 信 随 着 Spark 生 态 系统 的 日 臻 完善， 这 些 组 件 还 会 长 足 发 
展 。 


最 后 一 章 将 介绍 Spark 的 性 能 调 优 ， 在 实战 中 如 何 让 Spark 运 行 得 更 快 ， 更 节省 资源 ， 是 系统 开发 者 追求 的 目标 。 


第 9 章 ”Spark 性 能 调 优 


本 章 主 要 介绍 如 何 对 Spark 进 行 性 能 调 优 。 当 程序 能 够 运行 起 来 时 ， 开 发 人 员 开 始 关注 这 个 程序 能 否 节省 空间 占用 、 能 否 运行 得 更 快 。 这 些 性 能 需求 就 需要 开发 者 通过 重 构 代码 或 者 调整 集群 的 配置 参 
数 进 行 优化 。 下 面 介 绍 一 些 Spark 可 以 优化 的 场景 和 技巧 。 


91 配置 参数 


在 Spark 应 用 程序 的 开发 中 ， 需 要 根据 具体 的 算法 和 应 用 场景 选择 调 优 方法 ， 没 有 万 能 的 解决 方案 ， 每 一 种 调 优 方法 对 一 些 方面 的 性 能 可 以 优化 ， 对 另 一些 方 面 的 性 能 可 能 会 产生 损耗 ， 下 面 先 介绍 对 
性 能 调 优 产生 影响 的 主要 参数 。 


1. 如 何 进行 参数 配置 性 能 调 优 


熟悉 Hadoop 开 发 的 用 户 对 配置 项 应 该 不 陌生 。 根 据 不 同 问题 ， 调 整 不 同 的 配置 项 参数 是 比较 基本 的 调 优 方案 。 配 置 项 可 以 在 脚本 文件 中 添加 ， 也 可 以 在 代码 中 添加 。 
(1) 通过 配置 文件 spark-env.sh 添 加 


可 以 参照 spark-env.sh.template 模 板 文件 中 的 格式 进行 配置 ， 参 见 下 面 的 格式 。 


export JAVA HOME-/usr/local/jdk 
export SCALA HOME-/usr/local/scala 
export SPARK MASTER IP-127.0.0.1 
export SPARK MASTER WEBUI PORT-8088 
export SPARK WORKER WEBUI PORT-8099 
export SPARK WORKER CORES-4 

export SPARK WORKER MEMORY-8g 


(2) 在 程序 中 通过 SparkConf 对 象 添 加 


如 果 是 在 代码 中 添加 ， 则 需要 在 SparkContext 定 义 之 前 修改 配置 项 的 修改 。 例 如 : 


val conf = new SparkConf () .setMaster ("local") .setAppName ("My 
application") .set ("spark.executor.memory", "1g") 
val sc = new SparkContext (conf) 


(3) 在 程序 中 通过 System.setProperty 添 加 


如 果 是 在 代码 中 添加 ， 则 需要 在 SparkContext 定 义 之 前 修改 配置 项 。 例 如 : 


System.setProperty ("spark.executor.memory", 


System.setProperty ("spark.worker.memory", 


"14g") 


"l6g") 


val conf - new SparkConf () .setAppName ("Simple Application") 
val sc = new SparkContext (conf) 


m 


Spark (http://spark.apache.org/docs/latest/configuration.html) 推荐 了 很 多 配置 参数 ， 读 者 可 以 参阅 。 


2. 如 何 观察 性 能 问题 


可 以 通过 下 面 的 方式 监测 性 能 。 


1) Web Ul. 


N 


Driver 程 序 控制 台 


3) logs 文 件 夹 下 日 志 。 


D 


work 文 件 夹 下 


ar 


5) Profiler T E, 


9.2 JII 


一 个 应 用 程序 可 以 完成 基本 功能 


例如 ， 一 些 JVM 的 Profiler 工 


ar 


， 如 Yourkit 


序 的 开发 、 调 试 以 及 作业 的 运行 观察 性 能 瓶颈 ， 进 而 进行 性 能 调 优 。 


、Jconsole 或 者 JMap、JStack 等 命令 。 更 全 面 的 可 以 通过 集群 的 Profiler 工 具 ， 如 Ganglia、Ambaria 等 。 


实 还 不 够 ， 还 有 一 些 更 加 细节 和 有 实际 意义 的 问题 需要 考虑 ， 尤 其 是 性 能 优化 问题 ， 但 以 往 的 经 验 教训 告诉 我 们 ， 过 早 的 性 能 优化 是 万 恶 之 源 ， 性 能 优化 应 该 随 着 程 


性 能 方面 的 提高 概括 来 说 主要 包括 时 间 性 能 提升 和 空间 性 能 提升 ， 而 这 两 个 方面 又 是 一 个 权衡 和 矛盾 的 地 方 ， 需 要 根据 应 用 的 具体 需求 运行 环境 适当 调节 ， 进 而 在 正确 完成 功能 的 基础 之 上 ， 使 执行 的 


时 间 尽 可 能 的 短 ， 占 用 的 空间 尽量 小 。 


当 处 理 大 规模 数据 时 ， 调 优 是 必须 面 对 的 问题 ，Spark 是 内 存 计算 ， 内 存 问题 就 变 得 尤为 重要 。 下 面 介 绍 的 调 优 方法 并 不 能 涵盖 Spark 的 全 部 ， 更 多 细节 的 调 优 可 以 到 Spark 的 社区 进行 提问 和 查看 ， 上 


下 面 从 以 下 几 个 方面 来 介绍 Spark 的 性 能 调 优 。 


9.2.1 ”调度 与 分 区 优化 


下 面 从 几 个 方面 讲解 调度 与 分 


EN 


.小 分 区 合并 问题 


区 优化 问题 。 


在 用 户 使 用 Spark 的 过 程 中 ， 常 常会 使 


面 会 有 很 多 和 你 遇 到 同样 问题 的 解决 方案 ， 以 及 很 多 的 高 手 乐 于 帮 你 解答 。 


filter 算 子 进行 数据 过 滤 。 而 频繁 的 过 滤 或 者 过 滤 掉 的 数据 量 过 大 就 会 产生 问题 ， 造 成 大 量 小 分 区 的 产生 (每 个 分 区 数据 量 小 ) 。 由 于 Spark 是 每 个 数据 分 区 都 会 


分 配 一 个 任务 执行 ， 如 果 任 务 过 多 ， 则 每 个 任务 处 理 的 数据 量 很 小 ， 会 造成 线程 切换 开销 大 ， 很 多 任务 等 待 执行 ， 并 行 度 不 高 的 问题 ， 是 很 不 经 济 的 。 例 如 : 


val rdd2 = rdd1.filter (line=>lines.contains ("error" 
) ) .filter (line=>line.contains (info) .collect () ; 


解决 方式 : 可 以 采用 RDD 中 


通过 coalesce 函 数 来 减少 分 


K, 具体 如 下 。 


重 分 区 的 函数 进行 数 所 


居 紧 缩 ， 减 少 分 区 数 ， 将 小 分 区 合并 变 为 大 分 | 


M 


def coalesce (numPartitio 
ord: Ordering[T] = nul 


ns: Int, 


shuffle: 


1): RDDI[T] 


Boolean = false) (implicit 


这 个 函数 会 返回 一 个 含有 numPartitions 数 量 个 分 


以 下 几 个 情景 请 大 家 注意 ， 当 分 区 由 10000 重 分 区 到 100 时 ， 由 了 


区 的 新 RDD， 即 将 整个 RDD 重 分 区 。 


F 前 后 两 个 阶段 的 分 区 是 窄 依赖 的 ， 所 以 不 会 产生 Shuffle 的 操作 。 


但 是 如 果 分 区 数量 急剧 减少 ， 如 极端 状况 从 10000 重 分 区 为 一 个 分 区 时 ， 就 会 造成 一 个 问题 : 数据 会 分 布 到 一 个 节点 上 进行 计算 ， 完 全 无 法 开掘 集群 并 行 计算 的 能 力 。 为 了 规避 这 个 问题 ， 可 以 设置 


shuffle=true。 请 看 源码 : 


new CoalescedRDD (new ShuffledRDD[Int, 


T, 


T, 


CIm T] 


(mapPartitionsWithIndex (distributePartition) , 
new HashPartitioner (numPartitions) ) ， 
numPartitions) .values 


由 于 Shuffle 可 以 分 隔 Stage， 这 就 保证 了 上 一 阶段 stage 中 的 上 游 任务 仍 是 10000 个 分 


进行 并 行 计算 。 


同时 还 会 遇 到 另 一 个 需求 ， 即 当前 的 每 个 分 


使 用 Hash 分 区 器 将 数据 进行 重 分 


def repartition (numPartitions: 


= null): RDD[T] 


rePartition 方 法 会 返回 一 个 含有 numpPartitions 个 分 


区 。 


区 在 并 行 计 算 。 如 果 不 加 Shuffle， 则 两 个 上 下 游 的 任务 合并 为 一 个 Stage 计 算 ， 这 个 Stage 便 会 在 1 个 分 区 状况 下 


区 数据 量 过 大 ， 需 要 将 分 区 数量 增加 ， 以 利 


Int) (implicit ord: Ordering[T] 


并 行 计算 能 力 ， 这 就 需要 把 Shuffle 设 置 为 true， 然 后 执行 coalesce 函 数 ， 将 分 区 数 增 大 ， 在 这 个 过 程 中 ， 默 认 


区 的 新 RDD。 


repartition 的 源码 如 下 。 


def repartition (numPartitions: Int) (implicit ord: Ordering[T] = null) : 
RDD[T] = ( 
coalesce (numPartitions, shuffle = true) 


} 


reparition 本 质 上 就 是 调用 的 coalesce 方 法 。 因 此 如 果 用 户 不 想 进行 Shuffle， 就 需 用 coalese 配 置 重 分 区 ， 为 了 方便 起 见 ， 可 以 直接 


repartition 进 行 重 分 区 。 


2. 倾 斜 问题 


倾斜 (skew) 问题 是 分 布 式 大 数据 计算 中 的 重要 问题 ， 很 多 优化 研究 工作 都 围绕 该 问题 展开 。 倾 斜 有 数据 倾斜 和 任务 倾斜 两 种 情况 ， 数 据 倾斜 导致 的 结果 即 为 任务 倾斜 ， 在 个 别 分 区 上 ， 任 务 执行 时 间 
过 长 。 当 少量 任务 处 理 的 数据 量 和 其 他 任务 差异 过 大 时 ， 任 务 进度 长 时 间 维 持 在 99% (或 100%) ， 此 时 ， 任 务 监控 页 面 中 有 少量 (1 个 或 几 个 ) reduce 子 任务 未 完成 。 单 一 reduce 的 记录 数 与 平均 记录 数 差 
异 过 大 ， 最 长 时 长 远大 于 平均 时 长 ， 常 可 能 达到 3 倍 甚至 更 多 。 


(1) 数据 倾斜 


产生 数据 倾斜 的 原因 大 致 有 以 下 几 种 。 


1) key 的 数据 分 布 不 均匀 (一 般 是 分 区 key 取 得 不 好 或 者 分 区 函数 设计 得 不 好 ) 。 
2) 业务 数据 本 身 就 会 产生 数据 倾斜 〈 像 TPC-DS 为 了 模拟 真实 环境 负载 特意 用 有 倾斜 的 数据 进行 测试 ) 。 
3) 结构 化 数据 表 设计 问题 。 


4) 某 些 SQL 语句 会 产生 数据 倾斜 。 


(2) 任务 倾斜 


产生 任务 倾斜 的 原因 较为 隐蔽 ， 一 般 就 是 那 台 机 器 的 正在 执行 的 Executor 执 行 时 间 过 长 ， 因 为 服务 器 架构 ， 或 JVM ， 也 可 能 是 来 自 线程 池 的 问题 ， 等 等 。 


解决 方式 : 可 以 通过 考虑 在 其 他 并 行 处 理 方式 中 间 加 入 聚集 运算 ， 以 减少 倾斜 数据 量 。 


数据 倾斜 一 般 可 以 通过 在 业务 上 将 极度 不 均匀 的 数据 剔除 解决 。 这 里 其 实 还 有 skew Join 的 一 种 处 理 方式 ， 将 数据 分 两 个 阶段 处 理 ， 倾 斜 的 key 数 据 作为 数据 源 处 理 ， 剩 下 的 Key 的 数据 再 做 同样 的 处 
理 。 二 者 分 开 做 同样 的 处 理 。 


(3) 任务 执行 速度 倾斜 


产生 原因 可 能 是 数据 倾斜 ， 也 可 能 是 执行 任务 的 机 器 在 架构 ，OS、JVM 各 节点 配置 不 同 或 其 他 原因 。 


解决 方式 : 设置 spark.speculation=true 把 那些 执行 时 间 过 长 的 节点 去 掉 ， 重 新 调度 分 配 任务 ， 这 个 方式 和 Hadoop MapReduce 的 speculation 是 相通 的 。 同 时 可 以 配置 多 长 时 间 来 推测 执 
行 ，spark.speculation.interval 用 来 设置 执行 间隔 进行 配置 。 在 源码 中 默认 是 配置 的 100， 示 例如 下 。 


val SPECULATION INTERVAL = conf.getLong ("spark.speculation.interval", 100) 


(4) 解决 方案 


1) 增 大 任务 数 ， 减 少 每 个 分 区 数据 量 : 增 大 任务 数 ， 也 就 是 扩大 分 区 量 ， 同 时 减少 单个 分 区 的 数据 量 。 
2) 对 特殊 Key 处 理 : 空 值 映射 为 特定 Key， 然 后 分 发 到 不 同 节 点 ， 对 空 值 不 做 处 理 。 
3) 广播 。 


@ 小 数据 量 表 直 接 广播 。 


@ 数 据 量 较 大 的 表 可 以 考虑 切 分 为 多 个 小 表 ， 多 阶段 进行 Map Side Join, 


4) 聚集 操作 可 以 Map 端 聚集 部 分 结果 ， 然 后 Reduce 端 合并 ， 减 少 Reduce 端 压力 。 
5) 拆 分 RDD: 将 倾斜 数据 与 原 数据 分 离 ， 分 两 个 Job 进 行 计算 。 


3. 并 行 度 


在 分 布 式 计算 的 环境 下 ， 如 果 不 能 正确 配置 并 行 度 ， 就 不 能 够 充分 利用 集群 的 并 行 计算 能 力 ， 浪 费 计 算 资源 。Spark 会 根据 文件 的 大 小 ， 默 认 配 置 Map 阶 段 任务 数量 ， 也 就 是 分 区 数量 (也 可 以 通过 
SparkContext.textFile 等 方法 进行 配置 ) 。 而 Reduce 的 阶段 任务 数量 配置 可 以 有 两 种 方式 ， 下 面 分 别 进行 介绍 。 


第 一 种 方式 : 写 函 数 的 过 程 中 通过 函数 的 第 二 个 参数 进行 配置 。 


def reduceByKey (func: (V, V) => V, numPartitions: Int): 
RDD[ (K, WV] =f 
reduceByKey (new HashPartitioner (numPartitions) , func) 


第 二 种 方式 : 通过 配置 spark.default.parallelism 来 进行 配置 。 它 们 的 本 质 原理 一 致 ， 均 是 控制 Shuffle 过 程 的 默认 任务 数量 。 


下 面 介绍 通过 配置 spark.default.parallelism 来 配置 默认 任务 数量 (如 groupByKey、reduceByKey 等 操作 符 需要 用 到 此 参数 配置 任务 数 ) ， 这 里 的 数量 选择 也 是 权衡 的 过 程 ， 需 要 在 具体 生产 环境 中 调 
整 ，Spark 官 方 推荐 选择 每 个 CPU Core 分 配 2~3 个 任务 ， 即 cpu core num*2 (或 3) 数量 的 并 行 度 。 


如 果 并 行 度 太 高 ， 任 务 数 太 多 ， 就 会 产生 大 量 的 任务 启动 和 切换 开销 。 


如 果 并 行 度 太 低 ， 任 务 数 太 小 ， 就 会 无 法 发 挥 集群 的 并 行 计算 能 力 ， 任 务 执行 过 慢 ， 同 时 可 能 会 造成 内 存 combine 数 据 过 多 占用 内 存 ， 而 出 现 内 存 溢出 (out of memory) 的 异常 。 


下 面 通过 源码 介绍 这 个 参数 是 怎样 发 挥 作用 的 。 可 以 通过 分 区 器 的 代码 看 到 ， 分 区 器 函数 式 决定 分 区 数量 和 分 区 方式 ， 因 为 Spark 的 任务 数量 由 分 区 个 数 决定 ， 一 个 分 区 对 应 一 个 任务 。 


object Partitioner ( 


2byte 的 空间 。 


def defaultPartitioner (rdd: RDD[ ]， others: RDD[ ]*) : Partitioner = ( 
val bySize = (Seq (rdd) ++ others) .sortBy ( .partitions.size) .reverse 
for (r <- bySize if r.partitioner.isDefined) { 
return r.partitioner.get 


if (rdd.context.conf.contains ("spark.default.parallelism") ) 


new HashPartitioner (rdd.context.defaultParallelism) 
) else ( 
new HashPartitioner (bySize.head.partitions.size) 
} 
} 
} 


从 RDD 的 代码 中 可 以 看 到 ， 默 认 的 分 区 函数 设置 了 groupBy 的 分 区 数量 。 


def groupBy[K] (f: T => K) (implicit kt: 
RDD[ (K,  Iterable[T]D ] = 
groupBy[K] (f, defaultPartitioner (this) ) 


ClassTag[K]) : 


reduceByKey 中 也 是 通过 默认 分 区 器 设置 分 区 数量 。 


def reduceByKey (func: (V, V) => V): RDD[ (K, 
reduceByKey (defaultPartitioner (self), func) 
} 


V]l1-t 


4.DAG 调 度 执行 优化 


1) 同一 个 Stage 中 尽量 容纳 更 多 的 算 子 ， 以 减少 Shuffle 的 发 生 。 


由 于 Stage 中 的 算 子 是 按照 流水 线 方式 执行 的 ， 所 以 更 多 的 Transformation 放 在 一 起 执 


行 能 够 减少 Shuffle 的 开销 和 任务 启动 和 切换 的 开销 。 


2) 已 经 cache 过 的 数据 。 可 以 使 用 cache 和 persist 函 数 将 数据 缓存 在 内 存 ， 其 实 
个 应 用 程序 的 性 能 。 


整 


922 ”内 存 仓储 优化 


下 面 将 从 以 下 几 个 方面 讲解 内 存 存储 的 优化 。[] 


1JVM 调 优 


内 存 调 优 过 程 的 大 方向 上 有 三 个 方向 是 值得 考虑 的 。 


程序 中 对 象 所 占 


的 内 存 空间 。 


N 
— 
t 
过 

n 


问 这 些 内 存 对 象 的 代价 。 


3) 垃圾 回收 的 开销 。 


户 可 以 按 


通常 状况 下 ，Java 的 对 象 访问 速度 是 很 快 的 ， 但 是 相对 于 对 象 中 存储 的 原始 数据 ，Java 对 象 整体 会 耗费 2~ 5 倍 的 内 存 空间 。 


(1) 内 存 耗 损 原因 


内 存 耗 损 是 由 以 下 几 个 原因 造成 的 ， 熟 悉 JVM 的 有 


户 可 能 会 比较 熟悉 其 中 的 原因 。 


1) 不 同 的 Java 对 象 都 会 有 一 个 对 象 头 (object header) ， 这 个 对 象 头 大约 为 16byte， 包 含 指向 这 个 对 象 的 类 的 指针 等 信息 ， 对 一 些 只 有 少量 数 所 
的 对 象 ， 这 个 头 的 信息 所 占 空间 会 大 于 对 象 的 数据 空间 。 


2) Java 中 的 字符 串 (String) 占 


综合 以 上 ， 一 个 10 字 符 的 字符 串 会 占用 超过 60byte 的 内 存 空 间 。 


40byte 空 间 。String 的 内 存 是 将 真正 字符 串 的 信息 存储 在 一 个 char 数 组 中 ， 并 且 还 会 存储 


居 的 对 象 ， 这 是 极为 不 经 济 的 。 例 如 ， 只 有 一 个 Int 


a 机 的 方式 理解 ， 存 储 仍然 是 多 级 存储 ， 数 据 存 储 在 访问 快 的 存储 设备 中 ， 提 高 快速 存储 命中 率 会 提升 


3) 常 
开销 。 


的 一 些 集合 类 ， 如 LinkedList 等 是 采 


链 式 数据 结构 存储 的 ， 对 底层 的 每 个 数据 项 进行 了 包装 ， 这 个 对 象 不 只 存储 数据 ， 还 会 


4) 集合 类 中 的 基本 数据 类 型 常常 采 


Java 堆 中 ， 而 拆 箱 意味 着 将 堆 中 对 象 转 换 为 栈 中 存储 的 数据 。 


(2) 计算 内 存 的 消耗 


计算 数据 在 集群 内 存 点 


( 当 内 存 空间 不 够 时 ， 将 数据 写 到 磁盘 上 ) ， 然 后 


户 可 以 根据 分 区 的 总 数 大 致 估计 出 整个 RDD 占 


INFO BlockManagerMasterActor: 


Added rdd 0 1 in memory on mbk.local: 50311 (size: 


空间。 例如， 下 面 的 日 志 信 息 。 


717.5 KB， free: 332.3 MB) 


这 表示 RDD0 的 partition1 消 耗 了 717.5KB 内 存 空间 。 


(3) 调整 数据 结构 


减少 内 存 消耗 的 第 一 步 就 是 减少 一 些 除 原始 数 拉 


1) 在 设计 和 选用 数据 结构 时 能 


数组 类 型 和 基本 数据 类 型 最 好 ， 尽 量 减少 一 些 链 式 的 Java 集 合 或 者 Scala 集 合 类 型 的 使 


居 以 外 的 Java 特 有 信息 的 消耗 ， 如 链 式 结构 中 的 指针 消耗 、 包 装 数据 产生 的 


一 些 装 箱 的 对 象 存储 ， 如 java.lang.Ingeger。 装 箱 与 拆 箱 的 机 制 在 很 多 程序 设计 语言 中 都 有 ，Java 中 装 箱 意味 着 将 这 些 基 本 数据 类 型 包装 为 对 象 存储 在 内 存 的 


的 空间 的 大 小 的 最 好 方法 是 创建 一 个 RDD， 读 取 这 些 数据 ， 将 数据 加 载 到 cache， 在 驱动 程序 的 控制 台 查看 SparkContext 的 日 志 。 这 些 日 志 信息 会 显示 每 个 分 区 占用 多 少 空 | 


元 数据 消耗 等 。 


e JAX: 


本 履 盖 大 部 分 的 Java 标 准 库 集 合 和 数据 类 型 。 官 网 


2) 减少 对 象 谋 套 。 例 如 ， 使 
够 体现 ， 不 是 数据 结构 设计 多 复杂 ， 


这 个 程序 就 多 好 ， 而 是 能 


也 址 为 http://fastutil.di.unimi.it/。 


大 量 数据 量 小 、 个 数 多 的 对 象 和 内 含 指针 的 集合 数据 结构 ， 这 样 会 产生 大 量 的 指针 和 对 象 头 元 数据 的 开销 。 
的 数据 结构 又 很 简单 ， 代 码 量 小 ， 开 销 小 ， 这 样 才 是 最 见 功力 的 。 


决 问题 , 采 


fastutil 这 个 第 三 方 库 ， 其 中 有 很 多 对 基本 数据 类 型 的 集合 ， 能 


存储 指向 其 他 数据 项 的 指针 ， 这 些 指针 也 会 产生 数据 空间 的 占用 和 


属性 


他 的 信息 ， 如 字符 串 长 度 ， 同 时 如 果 采 用 UTF-16 编 码 ， 一 个 字符 就 占用 


间 


《编程 之 美 》 中 提出 的 “程序 简单 就 是 美 ”的 思想 在 这 里 也 


3) 考虑 使 用 数字 的 1D 或 者 枚 举 对 象 ， 而 不 是 使 用 字符 串 作 为 key 键 的 数据 类 型 。 从 前 面 也 看 到 ， 字 符 串 的 元 数据 和 本 身 的 字符 编码 问题 产生 的 空间 占用 过 大 。 


4) 当 内 存 小 于 32GB 时 ， 官 方 推荐 配置 JVM 人 参数 -XX: +UseCompressedOops， 进 而 将 指针 由 8byte 压 缩 为 4byte。OOP 的 全 称 是 ordinary object pointer， 即 普通 对 象 指针 。 在 64 位 HotSpot 
中 ，OOP 使 用 32 位 指针 ， 默 认 64 位 指针 会 比 32 位 指针 使 用 的 内 存 多 1.5 倍 ， 启 用 CompressOops 后 ， 会 压缩 的 对 象 如 下 。 


@ 每 个 Class 的 属性 指针 (静态 成 员 变 量 ) 


@ 每 个 对 象 的 属性 指针 。 


@ 普 通 对 象 数组 每 个 元 素 的 指针 。 


但 是 ， 指 向 PermGen 的 Class 对 象 指针 、 本 地 变量 、 堆 栈 元 素 、 入 参 、 返 回 值 、NULL 指 针 不 会 被 压缩 。 可 以 通过 配置 文件 spark-env.sh 配 置 这 个 参数 ， 从 而 在 Spark 中 启用 JVM 指 针 压 缩 。 


(4) 序列 化 存储 RDD 


如 果 通 过 上 面 的 优化 方式 进行 优化 ， 对 象 存储 空间 仍然 很 大 ， 一 个 更 加 简便 的 减少 内 存 消耗 的 方法 是 以 序列 化 的 格式 来 存储 这 些 对 象 。 在 程序 中 可 以 通过 设置 storageLevels 这 个 枚 举 类 型 来 配置 RDD 的 
数据 存储 方式 ， 官 网 的 API 文 档 中 提供 了 更 为 丰富 的 RDD 存 储 方式 ， 有 兴趣 的 读者 可 以 自行 学 习 参 考 。 例 如 ， 当 配置 RDD 为 MEMORY_ONLY_SER 存 储 方 式 时 ，Spark 将 这 个 RDD 的 每 个 分 区 存储 为 一 个 大 
的 byte 数 组 。 当 然 这 也 是 一 个 权衡 的 过 程 ， 这 样 的 存储 会 带 来 数据 访问 变 慢 的 问题 ， 这 是 由 于 每 次 访问 数据 还 需要 经 过 反 序 列 化 的 过 程 。 用 户 如 果 希 望 在 内 存 中 缓存 数据 ， 则 官方 推荐 使 用 Kyro 的 序列 化 库 
进行 序列 化 ， 因 为 Kyro 相 比 于 Java 的 标准 序列 化 库 序列 化 后 的 对 象 占用 空间 更 小 ， 性 能 更 


(5 


JVME LRL (GC). 调 优 


当 Spark 程 序 产 生 大 数据 量 的 RDD 时 ，JVM 的 垃圾 回收 就 会 成 为 一 个 问题 。 当 JVM 需 要 蔡 换 和 回收 旧 对 象 所 占 空间 来 为 新 对 象 提供 存储 空间 时 ， 根 据 JVM 垃 圾 回收 算法 ，JVM 将 遍历 所 有 Java 对 象 ， 然 
后 找到 不 再 使 用 的 对 象 进而 回收 。 这 里 其 实 开 销 最 大 的 因素 是 程序 中 使 用 了 大 量 的 对 象 ， 所 以 设计 数据 结构 时 应 该 尽量 使 用 创建 更 少 的 对 象 的 数据 结构 ， 如 尽量 采用 数组 Array， 而 少 用 链表 的 LinkedList， 
从 而 减少 垃圾 回收 开销 。 更 好 的 一 个 方式 是 将 数据 缓存 为 序列 化 的 形式 ， 这 些 将 在 序列 化 的 优化 方法 中 详细 介绍 ， 这 样 只 有 一 个 对 象 ， 即 一 个 byte 数 组 作为 一 个 RDD 的 分 区 存储 。 当 遇 到 GC (垃圾 回收 ) 问 
题 时 ， 首 先 考 虑 用 序列 化 的 方式 尝试 解决 。 


当 Spark 任 务 的 工作 内 存 空间 和 RDD 的 缓存 数据 空间 产生 干扰 时 ， 垃 圾 回收 同样 会 成 为 一 个 问题 ， 可 以 通过 控制 分 给 RDD 的 缓存 来 缓解 这 个 问题 。 


1) 度量 GC 的 影响 。 


GC 调 优 的 第 一 步 是 统计 GC 的 频率 和 GC 的 时 间 开 销 。 可 以 设置 spark-env.sh 中 的 SPARK_JAVA_OPTS 参 数 ， 添 加 选项 -verbose: gc-XX: +PrintGCDetails-XX: +PrintGCTime-Stamps。 当 用 户 下 一 
次 的 Spark 任 务 运行 时 ， 将 会 看 到 worker 的 日 志 信 息 中 出 现 打印 GC 的 时 间 等 信息 ， 需 要 注意 的 是 ， 这 些 信息 都 Worker 节 点 显示 ， 而 不 在 驱动 程序 的 控制 台 显示 。 


2) 缓存 大 小 调 优 。 


对 GC 来 说 ， 一 个 重要 的 配置 参数 就 是 内 存 给 RDD 用 于 缓存 的 空间 大 小 。 默 认 情况 下 ，Spark 用 配置 好 的 Executor 60% 的 内 存 (spark.executormemory) 缓存 RDD。 这 就 意味 着 40% 的 剩余 内 存 空 间 
可 以 让 Task 在 执行 过 程 中 缓存 新 创建 的 对 象 。 在 有 些 情况 下 ， 用 户 的 任务 变 慢 ， 而 且 JVM 频 繁 地 进行 垃圾 回收 或 者 出 现 内 存 溢出 (out of memory 异 常 ) ， 这 时 可 以 调整 这 个 百分比 参数 为 50%。 这 个 百 分 
比 参数 可 以 通过 配置 spark-env.sh 中 的 变量 spark.storage.memoryFraction=0.5 进 行 配置 。 同 时 结合 序列 化 的 缓存 存储 对 象 减少 内 存 空 间 占 用 ， 将 会 更 加 有 效 地 缓解 垃圾 回收 问题 。 下 面 介绍 一 些 高 级 GC 
调 优 技术 。 图 9- 1 为 Java 堆 中 的 各 代 内 存 分 布 。 
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图 9-1 JVM 内 存 分 布 


Q@Young (年 轻 代 ) 。 


年 轻 代 分 为 3 个 区 : 一 个 Eden 区 和 两 个 Survivor 区 (Survivor Space) 。 大 部 分 对 象 在 Eden 区 中 生成 。 当 Eden 区 满 时 ， 还 存活 的 对 象 将 被 复制 到 Survivor 区 (两 个 中 的 一 个 ) ， 当 一 个 Survivor 区 满 
时 ， 此 区 的 存活 对 象 将 被 复制 到 另外 一 个 Survivor 区 ， 当 这 个 Survivor 区 也 满 时 ， 从 第 一 个 Survivor 区 复制 过 来 的 且 还 存活 的 对 象 ， 将 被 复制 Tenured (老年 ) 区 。 需 要 注意 的 是 ，Survivor 的 两 个 区 是 对 称 
的 ， 没 先后 关系 ， 所 以 同一 个 区 中 可 能 同时 存在 从 Eden 区 复制 过 来 的 对 象 和 从 前 一 个 Survivor 区 复制 过 来 的 对 象 ， 而 复制 到 年 者 区 的 只 有 从 第 一 个 Survivor 区 过 来 的 对 象 。 而 且 ，Survivor 区 总 有 一 个 是 空 
的 。 大 多 数 情况 下 Java 程 序 新 建 的 对 象 都 是 从 新 生 代 分 配 内 存 。 


不 同 的 GC 方 式 会 以 不 同 的 方式 按 此 值 来 划分 Eden 区 和 Survivor 区 的 大 小 ， 有 的 GC 还 会 根据 运行 情况 动态 调整 这 3 个 区 的 大 小 。 


@Tenured (年 老 代 ) 。 


年 老 代 存 放 从 年 轻 代 存活 的 对 象 。 一 般 来 说 ,年 老 代 存放 的 都 是 生命 期 较 长 的 对 象 。 


GPerm (持久 代 ) 。 


持久 代用 于 存放 静态 文件 、Java 类 、 方 法 等 。 持 久 代 对 垃圾 回收 没有 显著 影响 ， 但 是 有 些 应 用 可 能 动态 生成 或 者 调用 一 些 class， 这 时 需要 设置 一 个 比较 大 的 持久 代 空间 来 存放 这 些 运行 过 程 中 新 增 的 


类 。 持 久 代 大 小 可 通过 -XX: MaxPermSize= 设 置 。 


持久 代 对 应 内 存 模型 中 的 方法 区 ， 存 放 了 加 载 类 的 信息 (名 称 、 修 饰 符 等 ) 、 类 中 的 静态 变量 、 类 中 定义 为 final 类 型 的 常量 、 类 中 的 field 信 息 、 类 中 的 方法 信息 ， 开 发 人 员 通 过 反射 机 制 访问 该 


在 sun jdk 中 ， 该 区 默认 的 最 小 值 为 16MB， 最 大 值 为 64MB， 可 以 通过 -XX: PermSize 和 -XX: MaxPermsize 来 指定 最 小 值 和 最 大 值 。 


3) 全 局 GC 调 优 。 


风 
& 


Spark 中 全 局 的 GC 调 优 要 确保 只 有 存活 时 间 长 的 RDD 存 储 在 老年 代 (Old generation) 区 域 ， 这 样 保证 年 轻 代 (Young) 有 足够 的 空间 存储 存活 时 间 短 的 对 象 。 这 有 助 于 减少 Spark 任 务 执行 时 需要 给 


数据 分 配 的 空间 ， 用 户 可 以 通过 下 面 的 方法 观察 和 解决 full GC 问题 。 


可 以 通过 观察 日 志 信息 查看 是 否 存在 过 多 过 频繁 的 GC。 如 果 full GC 在 任务 执行 完成 之 前 被 触发 多 次 ， 就 表示 对 正在 执行 的 任务 没有 足够 的 内 存 空间 分 配 。 


下 面具 体 讲解 spark.storage.memoryFraction 属 性 。 


如 果 从 打印 的 GC 日 志 来 看 ， 老 年 代 将 要 满 了 ， 就 应 该 减少 缓存 数据 的 内 存 使 用 量 ， 可 以 通过 配置 spark.storage.memoryFraction 属 性 进行 配置 ， 缓 存 更 少 的 对 象 还 是 比 减 慢 内 存 执行 时 间 更 加 经 济 。 


spark.storage.memoryFraction 控 制 用 于 Spark 缓 存 的 Java 堆 空间 ， 默 认 值 为 0.67， 即 2/3 的 Java 堆 空间 用 于 Spark 的 缓存 。 如 果 任务 的 计算 过 程 中 需要 用 到 较 多 的 内 存 ， 而 RDD 所 需 内 存 较 少 ， 就 可 以 
调 低 这 个 值 ， 以 减少 计算 过 程 中 因为 内 存 不 足 而 产生 的 GC 过 程 。 在 调 优 过 程 中 发 现 ，GC 过 多 是 导致 任务 运行 时 间 较 长 的 一 个 常见 原因 。 如 果 任务 运行 较 慢 ， 想 确定 是 否 是 GC 太 多 导致 的 ， 可 以 在 spark- 


env.sh 中 设置 JAVA_OPTS 参 数 ， 以 打印 GC 的 相关 信息 ， 设 置 如 下 。 


JAVA OPTS-" -verbose: gc -XX: *PrintGCDetails -XX: *PrintGCTimeStamps" 


这 样 如 果 有 GC 发 生 ， 就 可 以 在 master 和 work 的 日 志 上 看 到 。 


下 面 通过 源码 看 看 这 个 参数 是 怎样 发 挥 作用 的 。 


在 BlockManager 中 对 memoryFraction 


private def getMaxMemory (conf: SparkConf): Long = ( 
val memoryFraction = conf.getDouble ("spark.storage.memoryFraction", 0.6) 
(Runtime.getRuntime.maxMemory * memoryFraction) .toLong 


} 


如 果 看 到 GC 日 志 中 有 很 多 minor GC 信 息 ， 而 非 major GC 信 息 ， 分 配 更 多 的 内 存 给 Eden 区 将 会 很 有 帮助 。 可 以 设 定 估计 出 的 每 个 任务 执行 需要 的 内 存 为 Eden 区 内 存 大 小 。 如 果 已 经 设置 Eden 区 内 存 大 


小 为 E， 就 可 以 通过 JVM 配 置 参数 -Xmn=4/3*E 设 置 年 轻 代 大 小 ， 多 出 的 空间 分 配给 Survivor 区 域 使 用 。 


例如 ， 如 果 任务 是 从 HDFS 读 取 数 据 ， 内 存 空间 的 占用 可 以 通过 从 HDFS 读 取 的 数据 块 大 小 和 数量 估计 。 需 要 注意 的 是 ， 一 般 情 况 下 ， 压 缩 的 数据 压缩 之 后 通常 为 原来 数据 块 大 小 的 2~3 倍 。 因 此 如 果 一 


个 JVM 中 要 执行 3~4 个 任务 ， 同 时 HDFS 的 数据 块 大 小 是 64MB， 就 可 以 估计 需要 的 Eden 代 大 小 是 4x3x64MB 大 小 的 空间 。 


最 后 监控 修改 了 配置 参数 之 后 ，Spark 应 用 的 GC 频率 和 时 间 开 销 ， 进 一 步调 优 。 


140523.html) 上 有 更 多 高 级 的 GC 调 优 方法 。 不 论 怎样 减少 GC 的 频 度 ， 都 可 以 明显 减少 开销 。 


2.0OM 问 题 优化 


相信 有 一 定 Spark 或 者 Hadoop 开 发 经 验 的 用 户 或 多 或 少 都 遇 到 过 OutOfMemoryError 内 存 溢出 问题 。 


通过 之 前 的 介绍 ， 读 者 已 经 对 JVM 的 内 存 管理 有 了 大 致 的 了 解 ，JVM 管 理 大 致 分 为 这 几 个 区 域 : permanent generation space (持久 代 区 域 ) 、h 


持久 代 区 域 主要 存放 类 和 元 数据 信息 ，Class 第 一 次 加 载 时 被 放 入 PermGen space 区 域 ，Class 需 要 存储 的 内 容 主 要 包括 方法 和 静态 属性 。 


堆 区 域 用 来 存放 对 象 ， 对 象 需要 存储 的 内 容 主要 是 非 静 态 属性 ， 包 括 年 轻 代 和 年 者 代 。 每 次 用 new 创 建 一 个 对 象 实例 后 ， 对 象 实例 存储 在 堆 区 域 中 ， 


官方 给 出 的 GC 调 优 建议 是 ，GC 调 优 依赖 于 两 个 关键 因素 : 应 用 程序 和 集群 能 够 提供 的 可 用 内 存 大 小 。 在 Oracle 的 官网 (http///www.oracle.com/technetwork/java/javase/gc-tuning-6- 


eap space ( 堆 区 域 ) Java stacks (Java 栈 ) 。 


这 部 分 空间 也 由 JVM 的 垃圾 回收 机 制 管 理 。 


Java 栈 与 大 多 数 编程 语言 ， 包 括 汇编 语言 的 栈 功能 相似 ， 主 要 存储 基本 类 型 变量 以 及 方法 的 输入 输出 参数 。Java 程 序 的 每 个 线程 中 都 有 一 个 独立 的 堆栈 ， 然 后 值 类 型 会 存储 在 栈 上 。 


容易 发 生 内 存 溢 出 问题 的 内 存 空间 包括 permanent generation space (持久 代 空 间 ) 和 heap space (GSE) ， 笔 者 常 遇 到 的 情景 就 是 heap spa 


ce 的 问题 。 


发 生 内 存 溢出 问题 的 原因 是 Java 庶 拟 机 创建 的 对 象 太 多 ， 在 进行 垃圾 回收 时 ， 虚 拟 机 分 配 到 的 堆 内 存 空间 已 经 用 满 了 ， 与 heap space 有 关 。 解 决 这 类 问题 有 两 种 思路 ， 一 种 是 减少 App 的 内 存 占用 消 


耗 ， 另 一 种 是 增 大 内 存 资源 的 供给 ， 具 体 的 做 法 如 下 。 

1) 检查 程序 ， 看 是 否 有 死 循环 或 不 必要 重复 创建 大 量 对 象 的 地 方 。 找 到 原因 后 ， 修 改 程序 和 算法 。 有 很 多 Java profile 工 具 可 以 使 用 ， 官 方 推荐 的 是 YourKit 其 他 还 有 jvisualVM、Jcohsole 等 工具 可 以 
使 用 。 

2) 按照 之 前 内 存 调 优 中 总 结 的 能 够 减少 对 象 在 内 存 数据 存储 空间 的 方法 开发 程序 开发 和 配置 参数 。 

3) 增加 Java 庶 拟 机 中 Xms (初始 堆 大 小 ) 和 Xmx (最 大 堆 大 小 ) 参数 的 大 小 ， 如 set JAVA_OPTS=-Xms256m-Xmx1024m。 

引起 这 个 问题 的 原因 还 很 可 能 是 Shuffle 类 操作 符 在 任务 执行 过 程 中 在 内 存 建 立 的 Hash 表 过 大 。 在 这 种 情况 下 ， 可 以 通过 增加 任务 数 ， 即 分 区 数 来 提升 并 行 性 度 ， 减 小 每 个 任务 的 输入 数据 ， 减 少 内 存 
占用 来 解决 。 


3. 磁 盘 临 时 目录 空间 优化 


配置 参数 spark.local.dir 能 够 配置 Spark 在 磁盘 的 临时 目录 ， 默 认 是 /tmp 目 录 。 在 Spark 进 行 Shuffle 的 过 程 中 ， 中 间 结 果 会 写 入 Spark 在 磁盘 的 临时 
不 下 的 数据 会 写 到 配置 的 磁盘 临时 目录 中 。 


这 个 临时 目录 设置 过 小 会 造成 No space left on device 异 常 。 也 可 以 配置 多 个 盘 块 spark.local.dir=/mn1/spark，/mnt2/spar，/mnt3/spark 来 扩 
盘 ， 加 快 MO 速 度 。 


[由 参考 自 http://spark.apache.org/docs/latest/tuning.html#memory-tuning , Spark È I o 


目录 中 ， 或 者 当 内 存 不 能 够 完全 存储 RDD 时 ， 内 存放 


展 Spark 的 磁盘 临时 目录 ， 让 更 多 的 数据 可 以 写 到 磁 


9.2.3 ”网 络 传输 优化 


1. 大 任务 分 发 优化 


在 任务 的 分 发 过 程 中 会 序列 化 任务 的 元 数据 信息 ， 以 及 任务 需要 的 jar 和 文件 。 任 务 的 分 发 是 通过 AKKA 库 中 的 Actor 模 型 之 间 的 消息 传送 的 。 因 为 Spark 采 用 了 Scala 的 函数 式 风格 ， 传 递 函 数 的 变量 引 
采用 闭 包 方式 传递 ， 所 以 当 需 要 传输 的 数据 通过 Task 进 行 分 发 时 ， 会 拖 慢 整体 的 执行 速度 。 配 置 参数 spark.akka.framesize (默认 buffer 的 大 小 为 10MB) 可 以 缓解 过 大 的 任务 造成 AKKA 缓 冲 区 溢出 的 问 
题 ， 但 是 这 个 方式 并 不 能 解决 本 质 的 问题 。 下 面具 体 讲解 配置 参数 spark.akka.frameSize。 


spark.akka.frameSize 控 制 Spark 框 架 内 使 用 的 AKKA 框 架 中 ，Actor 通 信 消 息 的 最 大 容量 (如 任务 (Task) 的 输出 结果 ) ， 因 为 整个 Spark 集 群 的 消息 传递 都 是 通过 Actor 进 行 的 ， 默 认为 10MB。 当 处 
理 大 规模 数据 时 ， 任 务 的 输出 可 能 会 大 于 这 个 值 ， 需 要 根据 实际 数据 设置 一 个 更 高 的 值 。 如 果 是 这 个 值 不 够 大 而 产生 的 错误 ， 则 可 以 从 Worker 节 点 的 日 志 中 排查 。 通 常 Worker 上 的 任务 失败 后 ， 主 节点 
Master 的 运行 日 志 上 提示 “Lost TID: ”， 可 通过 查看 失败 的 Worker 日 志文 件 $SPARK_HOME/work/ 目 录 下 面 的 日 志文 件 中 记录 的 任务 的 Serialized size of result 是 否 超过 10MB 来 确定 通信 数据 超过 
AKKA 的 Buffer 异 常 。 


2.Broadcast 在 调 优 场景 的 使 用 


Spark 的 Broadcast (广播 ) 变量 对 数据 传输 进行 优化 ， 通 过 Broadcast 变 量 将 用 到 的 大 数据 量 数据 进行 广播 发 送 ， 可 以 提升 整体 速度 。Broadcast 主 要 用 于 共享 Spark 在 计算 过 程 中 各 个 task 都 会 用 到 的 
只 读 变 量 ，Broadcast 变 量 只 会 在 每 台 计 算 机 器 上 保存 一 份 ， 而 不 会 每 个 task 都 传递 一 份 ， 这 样 就 大 大 节省 了 空间 ， 节 省 空间 的 同时 意味 着 传输 时 间 的 减少 ， 效 率 也 高 。 在 Spark 的 HadoopRDD 实 现 中 ， 就 
Broadcast 进 行 Hadoop JobConf 的 传输 。 官 方 文档 的 说 法 是 ， 当 task 大 于 20KB 时 ， 可 以 考虑 使 用 Broadcast 进 行 优化 ， 还 可 以 在 控制 台 日 志 看 到 任务 是 多 大 ， 进 而 决定 是 否 优 化 。 还 需要 注意 ,每 次 
运 代 所 传输 的 Broadcast 变 量 都 会 保存 在 从 节点 Worker 的 内 存 中 ， 直 至 内 存 不 够 用 ，Spark 才 会 把 旧 的 Broadcast 变 量 释放 掉 ， 不 能 提前 进行 释放 。BroadCast 变 量 有 一 些 应 用 场景 ， 如 MapSidejoin 中 的 小 
表 进 行 广播 、 机 器 学 习 中 需要 共享 的 矩阵 的 广播 等 。 


k 


户 可 以 调用 SparkContext 中 的 方法 生成 广播 变量 。 


def broadcast[T] (value: T) (implicit arg0: ClassTag[T]) : Broadcast[T] 


3.Collect 结 果 过 大 优化 


在 开发 程序 的 过 程 中 ， 会 常常 用 到 Collect 操 作 符 。Collect 函 数 的 实现 如 下 。 


def collect O : Array[T] = { 
val results = sc.runJob (this, (iter: Iterator[T]) => iter.toArray) 
Array.concat (results: _*) 


} 


函数 通过 SparkContext 将 每 个 分 区 执行 变 为 数组 ， 返 回 主 节点 后 ， 将 所 有 分 区 的 数组 合并 成 一 个 数组 。 这 时 ， 如 果 进 行 Collect 的 数据 过 大 ， 就 会 产生 问题 ， 大 量 的 从 节点 将 数据 写 回 同一 个 节点 ， 拖 
慢 整体 运行 时 间 ， 或 者 可 能 造成 内 存 溢出 的 问题 。 


解决 方式 : 当 收 集 的 最 终结 果 数 据 过 大 时 ， 可 以 将 数据 存储 在 分 布 式 的 HDFS 或 其 他 分 布 式 持久 化 层 上 。 将 数据 分 布 式 地 存储 ， 可 以 减 小 单机 数据 的 MO 开 销 和 单机 内 存 存储 压力 。 或 者 当 数据 不 太 大 ， 
但 会 超出 AKKA 传 输 的 Buffer 大 小 时 ， 需 要 增加 AKKA Actor 的 buffer， 可 以 通过 配置 参数 spark.akka.frameSize (默认 大 小 为 10MB) 进行 调整 。 


9.24 序列 化 与 压缩 


前 面 章节 详细 介绍 了 spark 的 MO 机 制 ， 下 面 介 绍 VO 中 的 主要 调 优 方向 。 


1. 通 过 序列 化 优化 


序列 化 的 本 质 作 用 是 将 链 式 存储 的 对 象 数据 ， 转 化 为 连续 空间 的 字 节 数组 存储 的 数据 。 这 样 的 存储 方式 就 会 产生 以 下 几 个 好 处 。 


1) 对 象 可 以 以 数据 流 方式 进行 进程 间 传输 (包含 网 络 传输 ) ， 同 样 可 以 以 连续 空间 方式 存储 到 文件 或 者 其 他 持久 化 层 中 。 


2) 连续 空间 的 存储 意味 着 可 以 进行 压缩 。 这 样 减少 数据 存储 空间 和 传输 时 间 。 


3) 减少 了 对 象 本 身 的 元 数据 信息 和 基本 数据 类 型 的 元 数据 信息 的 开销 。 


4) 对 象 数 减少 也 会 减少 GC 的 开销 和 压力 。 


综 上 所 述 ， 数 据 进行 序列 化 还 是 很 有 价值 的 。 


Spark 中 提供 了 两 个 序列 化 库 和 两 种 序列 化 方式 : 使 用 java 标准 序列 化 库 进 行 序列 化 的 方式 和 使 用 Kyro 库 进行 序列 化 的 方式 。Java 标 准 序列 化 库 兼 容 性 好 ， 但 体积 大 、 速 度 慢 ，Kyro 库 兼容 性 略 差 ， 但 
是 体积 小 、 速 度 快 。 所 以 在 能 使 用 Kyro 的 情况 下 ， 还 是 推荐 使 用 Kyro 进 行 序列 化 。 


可 以 通过 spark.serializer="org.apache.spark.serializer.KryoSerializer" 来 配置 是 否 使 用 Kyro 进 行 序列 化 ， 这 个 配置 参数 决定 了 Shuffle 进 行 网 络 传输 和 当 内 存 无 法 容纳 RDD 将 分 区 写 入 磁盘 时 ， 使 用 的 
序列 化 器 的 类 型 。 


在 分 布 式 应 用 中 ， 序 列 化 处 于 举足轻重 的 地 位 。 那 些 需要 大 量 时间 进 行 序列 化 的 数据 格式 和 占据 过 大 空间 的 对 象 会 拖 慢 整个 应 用 。 通 常情 况 下 ， 序 列 化 是 Spark 调 优 的 第 一 步 。Spark 为 了 权衡 兼容 性 和 
性 能 提供 了 两 种 序列 化 库 。 


(1) Java 标 准 序列 化 库 


在 默认 情况 下 ，Spark 使 用 ObjectOutputstream 框 架 进行 对 象 的 序列 化 。 可 以 通过 实现 java.io.Serializable 接 口 ， 使 对 象 可 以 被 序列 化 ， 也 可 以 扩展 java.io.Externalizable 进 而 控制 序列 化 的 性 能 。 
Java 标 准 序列 化 库 很 灵活 ， 并 且 兼 容 性 好 ， 但 是 通常 情况 下 ， 速 度 较 慢 ， 而 且 导 致 序列 化 后 数据 量 较 大 。 


(2) Kyro 序 列 化 库 


Spark 也 可 以 使 用 Kyro 序 列 化 库 来 更 加 快速 地 序列 化 对 象 。Kyro 相 对 于 java 序列 化 库 能 够 更 加 快速 和 紧凑 地 进行 序列 化 〈 通 常 有 10 倍 的 性 能 优势 ) ， 但 是 Kyro 并 不 能 支持 所 有 可 序列 化 的 类 型 ， 如 果 对 
程序 有 较 高 的 性 能 优化 要 求 ， 就 需要 自 定义 注册 类 。 官 方 推荐 对 于 网 络 传输 密集 型 (network-intensive) 计算 ， 采 用 Kyro 序 列 化 性 能 更 好 。 


Spark 自 动 引 入 了 对 许多 常用 的 Scala 核 心 类 的 Kyro 的 序列 化 支持 ， 这 些 类 均 是 在 Spark 使 用 的 Twitter chill 库 支持 的 类 。 


(3) 序列 化 示例 


下 面 通过 一 个 例子 演示 如 何 自 定义 一 个 Kryo 的 可 序列 化 的 类 。 


创建 一 个 公共 类 ， 这 个 类 要 扩展 org.apache.spark.serializer.KryoRegistrator， 然 后 配置 spark.kryo.registrator 指 向 它 ， 代 码 如 下 。 


import com.esotericsoftware.kryo.Kryo 
import org.apache.spark.serializer.KryoRegistrator 
class MyRegistrator extends KryoRegistrator { 
override def registerClasses (kryo: Kryo) { 
kryo.register (classOf [MyClass1]) 
kryo.register (classOf [MyClass2]) 
} 
} 
val conf = new SparkConf () .setMaster (http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/14947/OEBPS/Text/...) .setAppName (http://www.hzco 
conf.set ("spark.serializer",  "org.apache.spark.serializer.KryoSerializer") ul 
conf.set ("spark.kryo.registrator", "mypackage.MyRegistrator") 
val sc = new SparkContext (conf) 


Kyro 序 列 化 库 的 官方 文档 上 描述 了 更 加 高 级 的 一 些 注册 方式 ， 如 增加 自 定义 序列 化 代码 ， 用 户 在 使 用 时 可 以 参考 相应 文档 中 的 样 例 ， 文 档 网 址 是 https://code.google.com/p/kryo/。 


如 果 对 象 占用 空间 很 大 ， 需 要 增加 Kryo 的 缓冲 区 容量 ， 就 需要 增加 配置 项 spark.kryoserializer.buffer.mb 的 数值 ， 默 认 是 2MB， 但 参数 值 应 该 足够 大 ， 以 便 容纳 最 大 的 序列 化 后 对 象 的 传输 。 


如 果 用 户 不 注册 自 定义 的 类 ，Kyro 仍 可 以 运行 ， 但 是 它 会 针对 每 个 对 象 存储 一 次 整个 类 名 ， 这 样 会 造成 很 大 的 空间 浪费 。 


2. 通 过 压缩 方式 优化 


在 Spark 中 对 RDD 或 者 Broadcast 数 据 进行 压缩 ， 是 提高 数据 吞吐 量 和 性 能 的 一 种 手段 。 压 缩 数据 ， 可 以 大 量 减少 磁盘 的 存储 空间 ， 同 时 压缩 后 的 文件 在 磁盘 闻 传 输 和 IO 以 及 网 络 传输 的 通信 开销 也 会 


减 小 ; 当然 压缩 和 解压 缩 也 会 带 来 额外 的 CPU 开销 ， 但 可 以 节省 更 多 的 /O 和 使 用 更 少 的 内 存 开销 。 


型 ， 权 衡 是 否 要 压缩 数据 。 


在 spark 应 用 中 ， 有 很 大 一 部 分 作业 是 IO 密集 型 的 。 数 据 压 缩 对 /MO 密集 型 的 作业 带 来 性 能 的 大 大 提升 ， 但 是 如 果 用 户 的 jobs 作 业 是 CPU 密集 型 的 ， 那 么 再 压缩 就 会 降低 性 能 ， 这 就 要 判断 作业 的 类 


压缩 数据 ， 可 以 最 大 限度 地 减少 文件 所 需 的 磁盘 空间 和 网 络 /O 的 开销 ， 但 压缩 和 解压 缩 数 据 总 会 增加 CPU 的 开销 ， 故 最 好 对 那些 MO 密集 型 的 作业 使 用 数据 压缩 一 一 这 样 的 作业 会 有 富余 的 CPU 资源 ， 


或 者 对 那些 磁盘 空间 不 富裕 的 系统 。 


Spark 目 前 支持 LZF 和 Snappy 两 种 解压 缩 方式 。Snappy 提 供 了 更 高 的 压缩 速度 ，LZF 提 供 了 更 高 的 压缩 比 ， 用 户 可 以 根据 具体 的 需求 选择 压缩 方式 。 具 体 的 介绍 可 以 参见 第 2 章 。 可 以 通过 表 9-1 的 配置 


参数 配置 压缩 。 
表 9-1 压缩 配置 
参数 参数 值 说 明 
ed 设置 这 次 参数 决定 broadcast 变量 是 否 进行 压 
spark.broadcast.compress true AS NO acus. 
i 缩 。 通 常情 况 下 压缩 它 是 一 个 好 的 选择 
设置 此 参数 决定 是 否 压 缩 一 个 已 经 序列 化 的 
RDD， 可 以 在 创建 RDD 时 ， 通 过 StorageLevel. 
spark.rdd.compress false MEMORY ONLY SER 设 定 是 否 序列 化 。 这 样 虽 
然 耗 费 一 些 压缩 时 间 ， 但 是 可 以 节省 大 量 的 内 存 
空间 
. 通过 这 个 参数 决定 是 采用 LZF， 还 是 Snappy 压 
. . org.apache.spark.io.| |... i MON TOES FAKE da ANC 
spark.io.compression.codec . 缩 算法 。LZF 压缩 率 较 高 ，Snappy 的 压缩 时 间 较 
LZFCompressionCodec | SE SR NEA edis 
短 ， 用 户 可 以 根据 需求 具体 权衡 
spark.io.compression.snappy.block.size | 32768 通过 这 个 参数 设置 Snappy 压缩 算法 的 块 大 小 


9.2.5 ”其 他 优化 方法 


除了 之 前 介绍 的 性 能 调 优 方法 ， 还 有 一 些 其 他 方法 可 供 使 用 。 


1. 批 处 理 


有 些 程序 可 能 会 调用 外 部 资源 ， 如 数据 库 连 接 等 ， 这 些 连 接 通 过 JDBC 或 者 ODBC 与 外 部 数据 源 进 行 交互 。 用 户 可 能 会 在 编写 程序 时 忽略 掉 一 个 问题 。 例 如 ， 将 所 有 数据 写 入 数据 库 ， 如 果 是 一 条 一 条 地 


rdd.map{line=>con=getConnection; 
con.write (line.toString) ; 


con.close) 


因为 整个 RDD 的 数据 项 很 大 ， 整 个 集群 会 在 短 时 间 内 产生 高 并 发 写 入 数据 库 的 操作 ， 对 数据 库 压力 很 大 ， 将 产生 很 大 的 写 入 开销 。 


这 里 ， 可 以 将 单条 记录 写 转化 为 数据 库 的 批量 写 ， 每 个 分 区 的 数据 写 一 次 ， 这 样 可 以 利用 数据 库 的 批量 写 优化 减少 开销 和 减轻 数据 库 压力 。 


rdd.mapPartitions (lines => conn.getDBConn; 
for (item <- lines) 

write (item.toString) ; 

conn.close) 


同 理 ， 对 于 其 他 类 型 的 需要 和 外 部 资源 进行 交互 的 操作 ， 也 是 应 该 采用 这 种 处 理 方式 。 


2.reduce 和 reduceByKey 的 优化 
reduce 是 Action 操 作 ，reduceByKey 是 Transformation 操 作 。 


reduce 的 源码 如 下 。 


def reduce (f: (T, TD =T): T-( 
val cleanF - sc.clean (f) 
val reducePartition: Iterator[T] => Option[T] = iter => ( 
if (iter.hasNext) ( 
Some Citer.reduceLeft (cleanF) ) 
) else { 
None 
} 
} 
var jobResult: Option[T] = None 
val mergeResult = (index: Int, taskResult: Option[T]) => { 
if (taskResult.isDefined) { 
jobResult = jobResult match { 
case Some (value) => Some (f (value, taskResult.get) ) 
case None => taskResult 
} 
) 
i 
sc.runJob (this, reducePartition, mergeResult) 
jobResult.getOrElse (throw new UnsupportedOperationException ("empty collection") ) 
) 


在 reduce 函 数 中 会 触发 sc.runJob， 提 交 任 务 ，reduce 是 一 个 Action 操 作 符 。 


reduceByKey 的 源码 如 下 。 


def reduceByKey (partitioner: Partitioner, func: (V, V) => V): 
RDD[ (K, VO» ] = { 
combineByKey[V] ( (v: V) => v, func, func, partitioner) 
$ 


由 代码 可 知 ，reduceByeKey 并 没有 触发 runJob， 而 是 调用 了 combineByKey， 该 函数 调用 聚集 器 聚集 数据 。 


reduce 是 一 种 聚合 函数 ， 可 以 把 各 个 任务 的 执行 结果 汇集 到 一 个 节点 ， 还 可 以 指定 自 定义 的 函数 传 入 reduce 执 行 。Spark 也 对 reduce 的 实现 进行 了 优化 ， 可 以 把 同一 个 任务 内 的 结果 先 在 本 地 Worker 
节点 执行 聚合 函数 ， 再 把 结果 传 给 Driver 执 行 聚合 。 但 最 终 数据 还 是 要 汇总 到 主 节点 ， 而 且 reduce 会 把 接收 到 的 数据 保存 到 内 存 中 ， 直 到 所 有 任务 都 完成 为 止 。 因 此 ， 当 任务 很 多 ， 任 务 的 结果 数据 又 比较 
大 时 Driver 容 易 造成 性 能 瓶颈 ， 这 样 就 应 该 考虑 尽量 避免 reduce 的 使 用 ， 而 将 数据 转化 为 Key-Value 对 ， 并 使 用 reduceByKey 实 现 逻 辑 ， 使 计算 变 为 分 布 式 计 算 。 


reduceByKey 也 是 聚合 操作 ， 是 根据 key 聚 合 对 应 的 value。 同 样 的 ， 在 每 一 个 mapper 把 数据 发 送 给 reducer 前 ,会 在 Map 端 本 地 先 合并 (类 似 于 MapReduce 中 的 Combiner) 。 与 reduce 不 同 的 
是 ，reduceByKey 不 是 把 数据 汇集 到 Driver 节 点 ， 是 分 布 式 进行 的 ， 因 此 不 会 存在 reduce 那 样 的 性 能 瓶颈 。 


3.Shuffle 操 作 符 的 内 存 使 用 


在 有 些 情 况 下 ， 应 用 将 会 遇 到 OutOfMemory 的 错误 ， 其 中 并 不 是 因为 内 存 大 小 不 能 够 容纳 RDD， 而 是 因为 执行 任务 中 使 用 的 数据 集合 太 大 (如 groupByKey) 。Spark 的 Shuffle 操 作 符 (sortByKey、 
groupByKey、reduceByKey、join 等 都 可 以 算是 Shuffle 操 作 符 ， 因 为 这 些 操作 会 引发 Shuffle) 在 执行 分 组 操作 的 过 程 中 ， 会 在 每 个 任务 执行 过 程 中 ， 在 内 存 创建 Hash 表 来 对 数据 进行 分 组 ， 而 这 个 Hash 
表 在 很 多 情况 下 通常 变 得 很 大 。 最 简单 的 一 种 解决 方案 就 是 增加 并 行 度 ， 即 增加 任务 数量 和 分 区 数量 。 这 样 每 轮 次 每 个 Executor 执 行 的 任务 数 是 固定 的 ， 每 个 任务 接收 的 输入 数据 变 少 会 减少 Hash 表 的 大 
小 ， 占 用 的 内 存 就 会 减少 ， 从 而 避免 内 存 溢出 OOM 的 发 生 。 


Spark 通 过 多 任务 复 用 Worker 的 JVM， 每 个 节点 所 有 任务 的 执行 是 在 同一 个 JVM 上 的 线程 池 中 执行 的 ， 这 样 就 减少 了 线程 的 启动 开销 ， 可 以 高 效 地 支持 单个 任务 200ms 的 执行 时 间 。 通 过 这 个 机 制 , 可 
以 安全 地 将 任务 数量 的 配置 扩展 到 超过 集群 的 整体 的 CPU core 数 ， 而 不 会 出 现 问题 。 


9.3 本章 小 结 


本 章 主要 介绍 了 Spark 程 序 的 性 能 调 优 。 在 应 用 开发 中 首先 应 该 是 能 够 让 程序 运行 ， 第 二 步 才 是 在 静态 代码 或 者 运行 程序 中 诊断 性 能 瓶 项 ， 查 找 造成 性 能 问题 的 代码 或 配置 项 ， 然 后 通过 性 能 调 优 的 原 
则 指导 Spark 的 调 优 ， 优 化 改进 代码 和 配置 项 。 过 早 的 优化 是 万 恶 之 源 ， 在 不 恰当 的 时 间 进 行 优化 会 增加 程序 复杂 性 以 及 延缓 开发 周期 。 同 时 我 们 也 看 到 大 数据 系统 软件 栈 多 ， 集 群 环境 复杂 ， 需 要 考虑 更 
多 的 因素 进行 性 能 调 优 ， 这 是 挑战 ， 同 时 也 是 机 遇 。 


